Mendelevium
Diary
Drug Design
Field Knowledge
Academia
Yang
Biology
Physics
Free Energy
Machine Learning & AI
Active Learning
Basics
Boltz-2
Data
Generation
Interpretability
QSAR application
Representations
Mol2Image
Workflow & Agent
Molecular Dynamics
FF & Algorithm
Small Molecule
martini
water
Interaction
Modeling & Tools
QM
Sampling & Analysis
Allostery
Fundamental
Other
Specific Sytems
Enzyme Engineering
Fiber & LLPS
Membrane
orientation_penetration
Metal
Nano Polymers
Skin Permeation
Techniques
Linux
Python
Research
Web
about
Home
Contact
Copyright © 2025 Xufan Gao | Academic Research Blog
Home
>
Specific Sytems
> Enzyme Engineering
A Bunch of Biophysics is Loading ...
Enzyme Engineering
细菌孕酮5β-还原酶的底物选择性调控与5β-二氢类固醇的高效合成
细菌孕酮5β-还原酶的底物选择性调控与5β-二氢类固醇的高效合成 本文信息 标题:Engineered Bacterial Progesterone 5β-Reductase: Tunable Substrate Preference and Synthesis of 5β-Dihydrosteroids 作者:Changli Che, Wenhe Zhang, Xiao Qiu, Qingyu Wang, Lichun Tang, Bin Qin, Xian Jia, Song You 发表时间: 2025年9月16日 单位:沈阳药科大学生命科学与生物制药学院、药物工程学院、伍亚创新学院(中国) 引用格式:Che, C., Zhang, W., Qiu, X., Wang, Q., Tang, L., Qin, B., Jia, X., & You, S. (2025). Engineered Bacterial Progesterone 5β-Reductase: Tunable Substrate Preference and Synthesis of 5β-Dihydrosteroids. ACS Catalysis, 15, 16560-16573. https://doi.org/10.1021/acscatal.5c04685 摘要 类固醇在5β位置的立体选择性氢化是类固醇药物合成中的关键步骤。然而,现有植物孕酮5β-还原酶(P5βR)和动物来源的类固醇5β-还原酶存在催化效率低和异源表达水平差的问题,限制了其实际应用。为了拓展5β-二氢类固醇的酶法合成途径,本研究首次从细菌中挖掘了P5βR,并研究了其对孕酮和8-氧香叶醛的催化活性。与植物来源的PRISE(孕酮5β-还原酶和/或鸢尾苷合成酶样1,4-烯酮还原酶)类似,细菌P5βR尽管保持高度保守的蛋白序列和结构架构,但表现出不同的底物偏好。通过整合序列-结构比较分析,研究者识别了控制底物选择性的构象开关,实现了细菌P5βR底物偏好的精准调控。分子动力学模拟结果表明,突变体M1能够打开底物结合口袋内的cavity B,使线性底物8-氧香叶醛稳定结合。本研究首次证明细菌P5βR可通过单点突变实现底物偏好的程控反转。此外,研究者提出了一种基于底物特征的理性策略,进一步增强了细菌P5βR对类固醇的催化活性。最优突变体LpP5βR-M5对孕酮的催化效率比野生型提高了700倍以上。准工业化的反应体系在2小时内几乎完全转化28 g/L孕酮并实现330 g/L·d的时空产率,标志着5β-二氢类固醇绿色合成进入可放大阶段。本研究不仅阐明了细菌P5βR的结构-功能关系,还开创了5β-二氢类固醇合成的环境友好型生物催化途径。 核心结论 细菌来源P5βR全面挖掘:首次从细菌中成功获得孕酮5β-还原酶集合,并同步解决植物/动物同源酶可溶表达差的瓶颈 保守骨架孕育新底物偏好:尽管整体折叠与PRISE高度保守,细菌P5βR展现与植物体系截然不同的底物特异性 H307构象开关实现偏好反转:单点突变即可通过cavity B门控调节,实现孕酮与8-氧香叶醛之间的底物选择性切换 理性工程显著提升动力学参数:面向空间位阻与疏水性需求的组合突变将催化效率提升至773倍,对应$k_\text{cat}/K_\text{m}=348.4\,\mathrm{mM^{-1}\,min^{-1}}$ 准工业化反应体系验证放大潜力:28 g/L孕酮在2小时内完成高立体选择性转化并达到330 g/L·d时空产率,为绿色工业化提供直接路径。 背景 类固醇Δ4,5-双键的立体选择性β面氢化能够形成具有A/B环顺式稠合构象的5β-二氢类固醇。这一转化在强心苷和胆汁酸的生物合成途径中具有关键意义。5β-二氢类固醇决定着强心苷与胆汁酸的终端产量,因此任何调控Δ4,5双键氢化的酶都直接关系到药物供应链的安全。尽管对动物和植物来源的同源酶进行了广泛研究,但微生物来源的催化该反应的酶仍未被表征。 动物来源的类固醇5β-还原酶(如AKR1D1和AKR1D2)是类固醇激素代谢和胆汁酸合成的必需酶,属于醛酮还原酶(AKR)超家族,采用其特征性的(α/β)8-桶状结构。在植物中,孕酮5β-还原酶(P5βR, EC 1.3.99.6)最早从洋地黄叶片中纯化,参与强心苷的生物合成。与动物类固醇5β-还原酶不同,植物来源的P5βR由于关键催化残基的差异而属于短链脱氢酶/还原酶(SDR)的特殊类别。动物AKR与植物SDR在催化骨架和辅酶识别上的根本差异,凸显了跨界挖掘全新催化架构的紧迫性。 植物P5βR和鸢尾苷合成酶(IS)共享高度的序列和结构同一性,IS活性也被证实广泛存在于植物P5βR中,因此它们被统称为VEP1编码的孕酮5β-还原酶/鸢尾苷合成酶(PRISE)。尽管PRISE家族酶具有几乎无法区分的结构和相似的催化机制,但P5βR和IS表现出明显不同的底物特异性。 5β-二氢类固醇作为众多生物活性分子和药物的关键中间体,包括强心苷类药物地高辛(Digoxin)、蟾毒灵(Bufallin)、胆汁酸衍生物鹅去氧胆酸(Chenodeoxycholic acid)以及新型抗抑郁药zuranolone等。然而,现有类固醇5β-脱氢酶在大肠杆菌中异源表达效率低、对Δ4,5-3-酮类固醇的催化性能欠佳,限制了其在5β-二氢类固醇合成中的实际应用。 尽管许多研究尝试通过基因挖掘或工程化改进类固醇5β-脱氢酶的催化活性,但至今仍未开发出可工业化规模的生物催化工艺。因此,工业合成5β-还原酶主要依赖传统化学方法。然而,类固醇Δ4,5-双键的立体选择性和区域选择性还原对化学合成是一个挑战,硼氢化物的使用更倾向于还原3-酮基。最广泛采用的化学方法涉及钯催化氢化(Pd/C或Pd/CaCO3),但通常只能达到约50%的立体选择性,且不同类固醇底物之间存在显著差异。传统氢化工艺在立体纯度、成本与环境负担之间的矛盾,逼迫行业寻求可放大的生物催化替代方案。实现更高的立体选择性需要费力优化反应溶剂和催化剂配方,显著增加了生产成本并限制了商业可行性。 图1:5β-二氢类固醇合成的现状与本研究定位 (a) 合成方法对比:左侧展示类固醇Δ4,5-双键的立体选择性β面氢化反应;右侧对比传统化学法(Pd/C催化加氢,需有机溶剂,立体选择性仅约50%)与酶法(SDR/AKR/P5βR,水相反应,立体选择性>99%)。关键信息:标注”Bacterial P5βR - Underexplored”点明本研究切入点 (b) 天然产物与药物应用:展示6个重要的5β-二氢类固醇分子,蓝色氢原子标记β构型: 强心苷类:地高辛(Digoxin)、毛地黄毒苷(Digitoxin) 新型神经活性药物:Zuranolone、Bufallin 胆汁酸类:鹅去氧胆酸(Chenodeoxycholic acid)、熊去氧胆酸(Ursodeoxycholic acid) (c) 已知PRISE催化反应:植物来源的PRISE家族催化孕酮(1a)生成5β-孕烷-3,20-二酮(2a),或催化8-氧香叶醛(1b)生成鸢尾苷前体(nepetalactol + iridodial) (d) 本研究发现:细菌P5βR(紫色蛋白结构)同样催化1a生成2a,但对1b的催化产物为diquatdial(2b)和6,7-二氢-10-氧香叶醛(2b’),产物路线与PRISE不同 关键科学问题 异源表达瓶颈:现有植物P5βR和动物类固醇5β-还原酶在大肠杆菌中可溶性表达水平低,难以满足工业化应用需求 催化效率低下:野生型P5βR对孕酮等类固醇底物的催化活性不足,限制了酶法合成的经济可行性 底物选择性机制不明:PRISE家族酶的底物特异性决定因素尚未阐明,阻碍了理性设计和底物范围拓展 工业化应用缺失:缺乏可工业化规模生产5β-二氢类固醇的环境友好型生物催化工艺 创新点 首次挖掘细菌P5βR:以植物P5βR为探针,从NCBI数据库中挖掘了10个细菌来源的P5βR,解决了异源表达问题 揭示底物选择性开关:通过序列-结构比较分析,识别了H307位点作为控制底物偏好的构象开关,单点突变即可反转底物选择性 底物特征导向的理性设计:提出了基于底物特性(大空间位阻和疏水性)的工程策略,系统性提升了对类固醇的催化活性 分子机制深入解析:结合分子对接、分子动力学模拟和腔体分析,阐明了突变体活性提升的结构基础 实现克级规模制备:最优突变体LpP5βR-M5实现了28 g/L孕酮的高效转化(STY 330 g/L·d),为工业化应用提供了可行方案 研究内容 基因挖掘与细菌P5βR的活性测定 为了克服植物P5βR和动物类固醇5β-脱氢酶异源表达差的障碍,研究者采用基因挖掘技术从细菌中搜索潜在的P5βR。首先,以洋地黄(Digitalis lanata)的经典DlP5βR和拟南芥(Arabidopsis thaliana)的AtP5βR为探针,在NCBI数据库中搜索了序列同一性最高的前100个细菌P5βR序列。所有序列在NCBI数据库中均被预测为SDR家族的氧化还原酶。 随后,基于植物P5βR的六个特征性保守基序(32GXTGIXG40、59GXXRR65、80DXXD85、143TGXKHYXGP153、176NFYYXXED185、197WSVHRP204)进行序列筛选。最终选择了约20个符合标准的候选序列。为了提高基因挖掘的成功率,研究者使用邻接算法(Neighbor-Joining Algorithm)构建了系统发育树,并分析了序列同一性。最终选择了10个序列进行基因合成。 graph TB Start["基因挖掘策略"] --> S1 subgraph S1["1.序列搜索与筛选"] direction LR A1["以DlP5βR和AtP5βR<br/>为探针搜索NCBI"] --> A2["获得前100个<br/>细菌序列"] A2 --> A3["基于6个保守基序<br/>筛选候选序列"] A3 --> A4["构建系统发育树<br/>选择10个基因合成"] end S1 --> S2 subgraph S2["2.异源表达与活性测定"] direction LR B1["克隆至pET-28a载体<br/>大肠杆菌表达"] --> B2["SDS-PAGE分析<br/>LpP5βR表达量最高"] B2 --> B3["Ni-NTA纯化<br/>活性测定"] end S2 --> S3 subgraph S3["3.底物特异性发现"] direction LR C1["孕酮1a<br/>所有P5βR有活性"] --> C2["8-氧香叶醛1b<br/>仅RbP5βR有活性"] C2 --> C3["产物鉴定<br/>2b和2b'"] end S3 --> Result["发现:细菌P5βR<br/>具有显著底物特异性"] 这些基因广泛分布于不同的细菌科,与DlP5βR和AtP5βR的序列同一性为35-42%,彼此之间的序列同一性为45-86%。合成基因克隆至pET-28a(+)载体,在大肠杆菌BL21(DE3)中表达。SDS-PAGE结果显示,这些酶的可溶性表达差异很大,其中LpP5βR的可溶性表达量最高(来源于Lichenihabitans psoromatis)。 活性测定结果令人惊喜:所有纯化的酶均表现出P5βR催化活性,能够立体选择性地还原孕酮(1a)的Δ4,5-双键形成5β-孕烷-3,20-二酮(2a)。其中,LwP5βR、GbP5βR和LpP5βR的催化活性较高,转化率超过20%。值得注意的是,与植物PRISE家族类似,细菌P5βR也依赖NADPH而非NADH作为辅酶,这归因于细菌P5βR具有与PRISE家族类似的辅酶结合口袋。 为了探索细菌P5βR是否像PRISE一样具有鸢尾苷合成酶活性,研究者以8-氧香叶醛(1b)作为底物进行活性测试。结果显示,细菌P5βR对1b普遍没有可检测的催化活性,只有RbP5βR表现出例外的催化活性(来源于Rhodobacteraceae bacterium)。产物经GC、MS和NMR鉴定为diquatdial(2b)和6,7-二氢-10-氧香叶醛(2b’),这与PRISE的催化产物不同,而与真菌还原酶EasA(来自Aspergillus fumigatus)的催化产物相同。推测在细菌P5βR催化过程中,氢负离子攻击1b的C6位而非C3位。 图2:细菌P5βR的基因挖掘与活性鉴定全景图 (a) 系统发育树:以植物DlP5βR和AtP5βR为探针,从NCBI筛选出的P5βR序列构建邻接树。红色标记为本研究合成并验证的10个细菌P5βR(来自蓝色区域的细菌分支),橙色为植物PRISE,灰色为动物类固醇5β-还原酶。树的尺度条表示0.54的进化距离 (b) 底物特异性测试:柱状图展示10个细菌P5βR对孕酮(1a,蓝色柱)和8-氧香叶醛(1b,紫色柱)的转化率。关键发现:大多数P5βR偏好1a(蓝色柱高),仅RbP5βR对1b有显著活性(紫色柱高) (c) 可溶性表达差异:SDS-PAGE凝胶电泳图。灰色背景柱代表不同底物组合(diquatdial、6,7-二氢-10-氧香叶醛、8-氧香叶醛),橙色柱标记LpP5βR对1a的高转化率(>25%),显著高于其他P5βR (d) 催化产物示意:上方为PRISE家族催化1b的产物(8-氧香叶醛→鸢尾苷前体),下方为细菌P5βR催化的产物路线(8-氧香叶醛→diquatdial + 6,7-二氢-10-氧香叶醛) (e) GC色谱验证:时间-强度曲线显示无酶对照、RbP5βR反应和标准品的峰位对比,证实产物身份 细菌P5βR的底物特异性调控 挖掘的10个细菌P5βR在催化1b和1a时表现出显著的底物特异性:RbP5βR偏好催化线性底物1b而非1a,而其他P5βR则偏好催化1a而非1b。为了实现细菌P5βR底物特异性的理性调控并寻找影响底物选择性的分子基础,研究者首先使用AlphaFold3获得了细菌P5βR与NADPH复合物的蛋白结构。 分子动力学模拟方法 为解析底物偏好反转与活性增强的结构机制,作者针对RbP5βR、LpP5βR及其M1、M5突变体开展了100 ns全原子MD模拟。所有体系在Schrödinger Release 2018-1环境中构建,采用OPLS3力场与SPC水模型,将蛋白-底物复合物置于正交水盒,并通过添加Na+/Cl−调节至pH 7.0并整体中和。每个体系先进行10 000步最陡下降能量最小化,随后在300 K、1.01325 bar的NPT系综下跑100 ns,轨迹每100 ps输出一次,以便统计氢键、距离、溶剂可及表面积和配体RMSD等指标。后处理统一借助Simulation Interaction Diagram模块,输出的接触占有率、SASA和结构快照构成了图4、图6及SI图S14-S19中氢键网络、Ligand-Contact-Diagram、SASA与RMSD分析的原始数据。 结构比较显示,细菌P5βR的整体结构与植物来源的DlP5βR相似,均具有SDR家族的Rossmann折叠和延伸的C端结构域。DlP5βR关键催化残基(Y179和K147)位置的酪氨酸和赖氨酸在细菌P5βR中也存在,推测为细菌P5βR的关键催化残基。 LpP5βR-Y145F突变体对1a的催化活性几乎完全丧失,进一步证明了该残基参与细菌P5βR的催化。 K114A突变体对1a的催化活性增强,表明K114氨基酸侧链不参与催化,可能是K114骨架酰胺氮与底物形成氢键,稳定底物并促进质子转移。 由于RbP5βR的底物特异性与其他挖掘的P5βR不同,研究者从序列和结构两方面分析了RbP5βR的特殊性。序列保守性分析显示,细菌P5βR底物结合口袋的氨基酸高度保守(L117、F120、Y123、M180、W306、H307、D311、R314),难以仅根据序列判断底物偏好。 结构比较显示,细菌P5βR的底物结合口袋可分为主体cavity A和靠近辅酶向下延伸的cavity B。RbP5βR的cavity B明显长于其他P5βR,推测更大的cavity B对于细菌P5βR催化8-氧香叶醛至关重要。通过观察cavity B周围的残基,识别出残基H307能够直接影响cavity B的大小。 图3:底物选择性的结构基础与H307门控开关 (a) 整体结构与保守骨架:左侧为RbP5βR-WT的AlphaFold3预测结构(浅蓝色ribbon),标注Rossmann fold(辅酶结合域)、N端和C端。右上插图展示Y179(对应LpP5βR的Y145)与NADPH、底物1a的空间位置关系。右侧底物结合口袋俯视图(紫蓝色表面)清晰显示水平延伸的cavity A和垂直向下的cavity B (b) 关键催化残基特写:Y179与底物1a的羰基氧形成氢键(红色虚线),K147起辅助稳定作用。柱状图显示不同P5βR的相对活性,RbP5βR(紫色柱)对1b活性最高 (c) 底物结合口袋的保守残基网络:棒状模型展示8个高度保守的残基(L117、F120、Y123、M180、W306、H307、D311、R314)围绕底物1a(白色骨架)。右侧sequence logo显示这些位点在PRISE家族中的保守性,H307位点几乎100%保守 (d) Cavity B的门控效应可视化:三个蛋白表面模型对比(RbP5βR-WT、LpP5βR-WT、LpP5βR-H307A)。黄色区域标记cavity B,红色圈标注H307/A307位置。关键量化:LpP5βR-M1的cavity B比WT增大**52.8 **Å3(从1213 Å3到1271 Å3) (e) H307突变体的底物选择性反转:柱状图显示5个突变体(H307A、H307V、H307L、H307I、H307F)对1a和1b的催化活性。H307A实现完全反转:对1b的活性从0提升至约60%,对1a的活性从80%降至20% (f) 底物谱系统测试:3D柱状图展示不同突变体对多种底物的转化率,验证H307A在拓宽底物范围中的作用 为了验证这一假设,研究者对LpP5βR的H307进行了定点诱变(H307A、H307V、H307L、H307I),并测试了对1a和1b的催化活性。令人惊喜的是,LpP5βR-H307A(M1突变体)对1b的催化活性相比野生型显著提高,而对1a的催化活性降低。活性位点腔体体积测量显示,LpP5βR-M1比LpP5βR-WT的体积增加了52.8 Å3。突变体M1成功实现了底物特异性的反转,也证实了研究者的推测。 随后,研究者在其他挖掘的P5βR上构建了M1突变体(LwP5βR-H307A、SsP5βR-H307A、GbP5βR-H311A、RbP5βR-H310A、AbP5βR-H306A、AcbP5βR-H309A、CbP5βR-H306A、TbP5βR-H311A),活性测试结果显示,所有突变体相比野生型都成功实现了底物特异性的改变。通过理性设计和工程化,研究者仅用单点突变就实现了细菌P5βR底物选择性的反转。 为了进一步探索细菌P5βR底物偏好改变的潜在机制,研究者进行了分子对接和分子动力学(MD)模拟。首先,通过比较RbP5βR-WT和LpP5βR-WT与1b的催化过程,发现底物1b在RbP5βR-WT的底物结合口袋中稳定,但在LpP5βR-WT的底物结合口袋中不稳定。这可能是RbP5βR相比其他细菌P5βR-WT对1b有催化活性的原因。 图4:底物结合稳定性的分子动力学证据(100 ns MD模拟) 这是一个3列×5行的MD模拟快照网格,系统性地展示了底物1b在不同酶中的动力学行为: 列布局(从左到右): 第1列 - RbP5βR-WT(米色蛋白表面):天然对1b有活性的酶 第2列 - LpP5βR-WT(白色蛋白表面):野生型,对1b无活性 第3列 - LpP5βR-M1(淡紫色蛋白表面):H307A突变体,获得对1b的活性 行布局(从上到下)时间序列:0 ns → 40 ns → 60 ns → 80 ns → 100 ns 关键观察: 黄色棒状:底物1b的线性骨架 标注残基:K117/K114(催化赖氨酸),Y148/Y145(质子给体),H310/H307/A307(门控残基) RbP5βR-WT(左列):1b在整个100 ns过程中始终稳定地停留在活性位点,保持合适的催化距离 LpP5βR-WT(中列):1b在模拟过程中逐渐偏离最佳催化位置,H307的咪唑环(粉色)形成空间冲突,导致底物无法稳定结合 LpP5βR-M1(右列):H307A突变消除了空间位阻后,1b重新获得稳定的结合姿态,证明H307确实是控制底物选择性的门控开关 通过理性设计扩大LpP5βR的cavity B后,1b能够在突变体LpP5βR-M1的底物结合口袋中形成合适的预反应构象,并在整个催化过程中保持稳定。307位高度保守的组氨酸充当门控开关,抑制对1b的催化活性。将该位点突变为丙氨酸使细菌P5βR的底物结合口袋更适合线性底物1b的稳定结合。 作者在Discussion中特别强调,cavity B门控是细菌P5βR底物偏好反转的唯一开关,借助这一点既能解释RbP5βR对1b的天然适配,也能为植物PRISE体系提供结构参照。团队计划围绕该门控位点开展跨物种序列比对,构建能够预测未知P5βR/IS序列底物偏好的规则库,为后续精准控制底物选择性奠定基础。 工程化细菌P5βR增强孕酮催化活性 尽管通过基因挖掘识别的细菌P5βR能够立体选择性地还原1a为2a,但其对1a的催化活性普遍较低。为了克服现有P5βR的局限性并为5β-二氢类固醇合成提供潜在的生物催化剂,研究者对细菌P5βR进行了理性设计指导的结构工程。由于LpP5βR在大肠杆菌中表达量高且对1a有良好的催化活性,因此选择LpP5βR进行工程化。 考虑到1a的性质(大空间位阻和疏水性),研究者制定了理性工程策略:将底物结合口袋中具有大空间位阻或极性的残基突变为具有小空间位阻的非极性氨基酸。通过观察LpP5βR的底物结合口袋,识别出F120、Y123、M180、H307和D311作为工程位点。其中F120和Y123位于底物通道入口,而M180、H307和D311更靠近辅酶。 图5:理性设计策略与迭代工程优化路线 (a) 工程热点定位:LpP5βR-WT的活性位点放大图。紫色棒状标记5个候选突变位点:F120和Y123(底物通道入口),M180、H307、D311(靠近NADPH)。底物1a(白色骨架)和NADPH(橙色棒状)清晰可见 (b) 单点突变筛选结果:柱状图展示野生型和单突变体对1a的转化率(条件A:0.5 mg/mL酶,1 h反应)。紫色柱为突变体,灰色柱为对照。关键发现:M180V(M2)、M180I、H307L活性显著提升(>60%转化率),而D311I活性降低 (c) 组合突变的迭代优化:柱状图展示从单突变H307L到双突变M3(M180V/H307A)、三突变M4(M180V/H307A/D311I)、四突变M5(T170V/M180V/H307A/D311I)的活性递增。分级筛选条件:左侧虚线前用条件B(0.25 mg/mL),右侧用条件C(0.04 mg/mL,20 min)。M5在最严格条件下仍完全转化底物 (d) M5在不同P5βR上的普适性:3D柱状图展示8个不同细菌P5βR的野生型(浅色柱)vs M5突变体(深色柱)对1a的转化率。所有M5突变体均显著优于野生型,证明策略的广泛适用性 (e) 克级制备验证:反应方案展示NADPH/NADP+循环系统(BsGDH偶联葡萄糖氧化)。时间-转化率曲线显示28 g/L底物在2 h内达到>98%转化率,产率93% 这五个氨基酸被突变为具有小空间位阻的非极性氨基酸,如A、V、L、I、P。为了准确评估不同突变体的活性变化,研究者设计了三套分级筛选条件: 条件A(野生型和单突变体):0.5 mg/mL纯酶,1 h反应 条件B(双/三突变体):0.25 mg/mL纯酶,1 h反应 条件C(四突变体):0.04 mg/mL纯酶,20 min反应 这种分级筛选策略的设计逻辑在于:随着突变累积导致活性不断提升,若继续使用高酶浓度和长反应时间,所有突变体都会达到完全转化,无法区分活性差异。因此必须逐步降低酶浓度并缩短反应时间,才能准确捕捉活性提升的梯度。 突变结果显示,F120和Y123突变体的催化活性与野生型相差不大,而M180A、M180V(M2)、M180I、H307L和H307F的转化率显著提高。此外,D311I突变体的催化活性相比野生型显著降低。 随后,构建了M180和H307的组合突变,发现突变体M180V/H307A(M3)和M180F/H307A相比单突变H307L的活性进一步提高。鉴于酶工程中上位效应的普遍性,研究者在M180/H307双突变体的基础上构建了D311突变。所得到的最优三突变体M180V/H307A/D311I(M4)在条件B下能够完全转化1a。 为了进一步消除底物结合口袋中的不利作用力并提高LpP5βR对1a的催化活性,研究者在M4的基础上构建了K114、H169、T170、R314突变体。最终获得了催化活性最高的突变体T170V/M180V/H307A/D311I(M5),在条件C下能够完全转化底物。这意味着M5的活性是野生型的至少12.5倍(0.5/0.04),而实际催化效率提升达到773倍,说明不仅酶浓度可以大幅降低,催化速率也显著加快。 为了测试理性工程策略是否普遍适用于细菌P5βR,研究者在其他挖掘的P5βR上引入了M5突变(LwP5βR-T170V/M180V/H307A/D311I、SsP5βR-T170V/M180V/H307A/D311I等)。活性测试显示,工程化P5βR的酶活性相比野生型显著提高。这些P5βR之间的低序列同一性表明,工程策略对不同细菌来源的P5βR具有广泛适用性。 为了研究LpP5βR-M5的应用价值,研究者使用LpP5βR-M5粗酶液作为催化剂进行2a的不对称合成。反应体系采用NADPH作为辅酶,并耦合葡萄糖脱氢酶(GDH)循环系统实现辅酶再生。该GDH来源于枯草芽孢杆菌(Bacillus subtilis, BsGDH),对D-葡萄糖的催化活性约为10 U/mg(25°C)。辅酶循环的工作原理是:GDH将葡萄糖氧化为葡萄糖酸的同时将NADP+还原为NADPH,从而持续供给P5βR催化所需的还原当量,使得系统仅需催化量的NADP+(0.1 mM)即可维持反应进行。 通过优化反应条件(包括助溶剂类型、底物浓度和辅酶浓度),确定了最佳反应条件: 底物浓度:28 g/L(约90 mM) 助溶剂:20% (v/v) DMSO 辅酶:0.1 mM NADP+(催化量) 辅助底物:50 g/L葡萄糖(为GDH循环提供驱动力) 酶用量:40 g/L湿菌体粗酶液(LpP5βR-M5)+ 5 g/L湿菌体粗酶液(BsGDH) 反应温度:35°C,220 rpm 在100 mL规模的不对称还原反应中,1a的转化率在2小时内超过98%,时空产率(STY)高达330 g/L·d。最终通过硅胶柱层析纯化得到纯净的化合物2a(2.6 g,93%产率)。值得强调的是,28 g/L的底物负载和330 g/L·d的STY已接近工业生物催化的标准要求,而仅需0.1 mM的辅酶浓度大大降低了成本。 LpP5βR突变体活性增强的分子机制 为了探索LpP5βR突变体对1a催化活性增强的分子机制,研究者测试了LpP5βR-WT及相关突变体的动力学常数。结果显示: M2突变体通过降低$K_\text{m}$显著提升了酶对1a的亲和力:$K_\text{m}$从0.16 mM下降到0.091 mM,证明缩小空间位阻的有效性 M3突变体依靠减小辅酶附近的腔体空间位阻显著提高$k_\text{cat}$,从而同步提升周转速率 M4与M5突变体通过增强口袋疏水性实现亲和力与速率的双向提升,共同奠定了后续克级合成的基础 酶 $K_\text{m}$ (mM) $k_\text{cat}$ (min-1) $k_\text{cat}/K_\text{m}$ (mM-1 min-1) 倍数 LpP5βR-WT 0.16 ± 0.04 0.066 ± 0.012 0.45 1 LpP5βR-M2 0.091 ± 0.028 0.342 ± 0.054 3.8 8 LpP5βR-M3 0.10 ± 0.02 3.42 ± 0.48 34.2 76 LpP5βR-M4 0.06 ± 0.01 6.60 ± 0.59 110.0 244 LpP5βR-M5 0.062 ± 0.009 21.6 ± 2.4 348.4 773 此外,研究者使用分子对接、腔体分析和MD模拟分析了LpP5βR的变化。首先,使用AlphaFold3预测了LpP5βR-M5的蛋白结构,预测模板建模分数(pTM)和界面预测模板建模分数(ipTM)分别为0.95和0.97。腔体分析显示,LpP5βR-M5的底物结合口袋相比野生型增大了约58 Å3,主要由于180、307位置(靠近辅酶结合口袋位置)的空间位阻减小。 图6:M5活性提升的三重分子机制全景解析 (a) 腔体体积的可视化对比(Caver分析):蓝色球形区域表示底物结合口袋和辅酶结合口袋的共同空间。上图(WT):腔体入口较窄;下图(M5):腔体明显扩大,标注”entrance”指示底物进入通道 (b) 腔体体积量化:紫色网格显示WT和M5的三维腔体轮廓。数值标注显示WT为1213 Å3,M5为1271 Å3,净增加58 Å3 (c) 催化构象优化(关键距离缩短):散点图显示100 ns MD模拟中两个关键催化距离的分布。上排(WT):d(Osub-OHY145)和d(Csub-C4NADH)距离较长且分散;下排(M5):两个距离显著缩短并聚集在催化最优范围(3-5 Å),证明质子和氢负离子传递更容易 (d) 相互作用力谱分析(Ligand-Contact-Diagram):柱状图展示底物1a与不同残基的相互作用占有率。上图(WT):主要依赖K114的氢键(绿色柱,>80%),Y145几乎无贡献;下图(M5):相互作用更丰富,出现多个水介导接触(蓝色柱),Y145通过水分子参与催化 (e) 水介导氢键网络的关键证据:3D结构特写显示M5中Y145(黄色棒状)通过1-2个水分子(红色球)与底物1a(白色骨架)形成氢键网络(绿色虚线)。NADPH(橙色)提供氢负离子。这种水桥结构在WT中几乎不存在,是M5催化效率提升的核心创新 (f) 结构稳定性增强(RMSD分析):时间序列曲线显示0-100 ns的蛋白和底物RMSD。紫色曲线(M5)比粉色曲线(WT)波动更小,RMSD均值更低,证明M5在催化过程中更稳定 (g) 疏水性增强的可视化:蛋白表面着色图。黄色区域表示疏水性,蓝色区域表示亲水性。WT(左):底物结合口袋有较多蓝色亲水区;M5(右):口袋疏水性显著增强(更多黄色),与类固醇疏水骨架的范德华相互作用更强 MD模拟从分子层面揭示了M5活性提升的三重机制: 首先,催化构象优化。突变体M5的两个关键催化距离[d(Osub-OHY145)和d(Csub-C4NADH)]明显短于WT,表明在突变体M5的催化过程中氢质子和氢负离子的传递距离更短,因此反应更容易发生。这直接解释了$k_\text{cat}$的大幅提升(从0.066到21.6 min-1,提升327倍)。 其次,水介导氢键网络的建立是M5活性提升的关键创新。力分析显示,在野生型中,虽然底物能够与K114形成连续且稳定的氢键,但与关键催化残基Y145没有直接相互作用,这导致质子传递效率低下。相比之下,M5在催化过程中与底物的相互作用力更丰富,许多水分子参与其中充当质子传递的桥梁。这归因于突变体相比WT具有更大的溶剂可及表面积(SASA)——突变引入的小侧链残基使得水分子更容易进入活性位点。定量分析显示,在M5中,Y145在大约49%的模拟时间内通过1-2个水分子与底物形成氢键网络,从而有效促进质子从Y145羟基转移到底物羰基,完成还原反应。这种水介导的质子传递机制在野生型中几乎不存在,是M5催化效率大幅提升的分子基础。 最后,结构稳定性增强。M5和WT的RMSD(均方根偏差)分析表明,M5在整个反应过程中的构象波动更小,蛋白结构更稳定。这可能是由于M5相比WT具有更疏水的底物结合口袋,与类固醇疏水骨架的范德华相互作用更强,因此底物结合更加稳定,减少了蛋白构象的扰动。 基于以上分析,突变体LpP5βR-M5对1a催化活性提高的原因可归纳为三点: 减小空间位阻:底物结合口袋中靠近辅酶位置的空间位阻减小 增加疏水性:底物结合口袋疏水性增加 水介导氢键网络:活性位点腔体的SASA增加,从而在酶的关键催化残基与底物之间建立水介导的氢键网络 底物范围探索 为了测试LpP5βR对类固醇化合物的催化效果,研究者使用LpP5βR-WT和LpP5βR-M5作为生物催化剂催化不同的类固醇。结果显示,LpP5βR-M5相比野生型具有更广的底物范围,其对所有类固醇底物的催化活性均显著提高。 图7:底物范围拓展与结构-活性关系 图示展示了LpP5βR-WT和M5对11个类固醇底物(1c-1k)的催化转化率对比,反应条件:0.1 M磷酸钾缓冲液(pH 7.5)、0.1 mM NADP+、10% DMSO、35°C、2 h。 颜色编码: 黑色文字:LpP5βR-WT的转化率 蓝色文字:LpP5βR-M5的转化率(下方括号内为分离产率) 关键结构-活性规律: C17取代耐受性强:2c(11-OH)、2f(25-OH)、2g(17-炔丙基)、2h(17-环氧)的高转化率(M5达67-99%)证明C17位大取代不影响催化,因为该位置位于口袋外部 Δ1-双键显著抑制:2d和2e的转化率明显低于饱和类似物,符合1,4-加成机制的要求 11-OH提升活性:2i(11β-OH,90%)和2j(11β-OH + 17,21-二羟基,99%)的超高转化率表明极性羟基增强底物亲水性有利于催化 C6-甲基完全阻断:2k(6α-Me)对WT和M5均无活性(N.A.),证明该位置的空间位阻阻止催化构象形成 M5的全面优势:对所有可转化底物,M5的活性均为WT的2-30倍,最大提升见于2i(从8%到90%) 通过比较LpP5βR对不同类固醇化合物的催化活性发现: C17位取代的空间位阻影响小:类固醇17位取代的空间位阻对酶活性影响很小,LpP5βR能够高效催化大的C17取代类固醇(如1f、1i),这可能是由于催化过程中类固醇的该位置位于P5βR底物结合口袋外部 Δ1-双键显著降低活性:Δ1-双键的存在(1d、1e)显著降低了P5βR的催化活性,因为P5βR的催化遵循1,4-加成原理 11位羟基取代提升活性:类固醇11位的羟基取代进一步增强了P5βR的催化活性,表明该位点的空间位阻对P5βR活性没有影响,且底物亲水性的增加有利于P5βR活性的提高(1i、1j) C6-甲基阻碍催化:对于底物1k,LpP5βR-WT和M5均未表现出催化活性,可能是因为底物C6-甲基的空间位阻阻止了其处于合适的预反应姿态 总之,通过理性设计获得的LpP5βR-M5不仅高效催化1a,也能覆盖多种药用类固醇,包括4-雄烯二酮(2e)、二苄醇(2f)、氢化可的松(2j)等关键中间体。 Q&A Q1:为什么细菌P5βR与植物PRISE在序列和结构高度保守的情况下,底物特异性却存在显著差异? 这是酶学研究中的经典现象——高度保守的整体结构并不意味着完全相同的底物选择性。尽管细菌P5βR与植物PRISE的整体序列同一性为35-42%,关键催化残基(如Y145、K114)高度保守,但底物结合口袋的微小结构差异足以导致底物偏好的显著改变。 具体而言,本研究发现cavity B(靠近辅酶的向下延伸腔体)的大小是决定性因素。RbP5βR的cavity B显著长于其他细菌P5βR,使其能够容纳线性底物8-氧香叶醛。而大多数细菌P5βR由于H307残基的存在,cavity B较小,更适合孕酮等刚性类固醇底物的结合。这种门控效应(gatekeeper effect)在酶工程中非常常见——单个关键残基就能控制底物通道的开闭和底物选择性。 此外,底物结合口袋的疏水性和形状互补性也是重要因素。孕酮作为疏水性强的刚性四环骨架分子,需要一个紧密的疏水性口袋才能稳定结合;而8-氧香叶醛作为线性柔性分子,需要一个更开放的腔体来容纳其延伸构象。MD模拟清晰地显示了这种差异:在LpP5βR-WT中,1b无法形成稳定的预反应构象,而在cavity B扩大后的M1突变体中,1b能够稳定结合并维持整个催化过程。 Q2:H307A单点突变如何实现底物选择性的完全反转?这一发现对PRISE家族底物特异性研究有何启示? H307A突变能够反转底物选择性的根本原因在于其打开了cavity B的门控。组氨酸是一个相对较大的极性氨基酸(侧链含咪唑环),在307位时其侧链会延伸到cavity B空间,物理性地阻碍了线性底物1b的进入和稳定结合。当突变为丙氨酸(最小的非极性氨基酸)后,cavity B的体积增加了52.8 Å3,这一空间扩展足以容纳1b的延伸链状结构。 从结构动力学角度看,MD模拟揭示了更深层的机制: 在野生型中,H307的咪唑环与底物形成空间冲突,导致1b无法在活性位点建立稳定的催化构象 在M1突变体中,H307A的空间释放使1b能够以合适的角度接近NADPH的C4位(氢负离子给体),并维持这种构象达100 ns以上 这一发现对PRISE家族研究具有重要启示。植物PRISE家族也面临同样的底物特异性之谜——为什么结构几乎无法区分的P5βR和IS会表现出对孕酮和8-氧香叶醛的选择性差异?现有研究尝试通过loop区域的动力学、活性位点苯丙氨酸的保守性等因素解释,但结论仍不清晰。 本研究提示cavity B大小可能是PRISE家族底物特异性的通用决定因素。考虑到细菌P5βR与植物PRISE的结构同源性,推测植物PRISE中也存在类似的门控残基。未来可以通过比较具有不同底物偏好的PRISE的cavity B结构,识别关键门控位点,进而通过定点突变实现底物选择性的理性调控。 Q3:基于底物特征的理性设计策略为何能普遍适用于不同来源的细菌P5βR?这种策略的局限性在哪里? 这一理性设计策略之所以具有普遍适用性,根源在于其基于底物-酶相互作用的普遍原理而非特定酶的个性化特征。孕酮作为底物具有两个显著特点:(1)刚性的四环骨架导致大空间位阻;(2)完全由碳氢骨架组成,具有强疏水性。因此,任何旨在提升孕酮结合和催化的策略,都应该围绕这两个特征展开: 减小活性位点的空间位阻:将大侧链残基(如M180、H307)突变为小侧链残基(如A、V),为刚性的类固醇骨架腾出空间,使其能够以最佳角度接近辅酶 增加活性位点的疏水性:将极性残基(如D311)突变为疏水残基(如I),增强与类固醇疏水骨架的范德华相互作用 这种策略的普适性体现在:研究者在序列同一性仅45-86%的10个不同细菌P5βR上应用M5组合突变(T170V/M180V/H307A/D311I),所有工程化酶的活性均显著提高。这表明这些位点在不同细菌P5βR中具有结构保守性和功能等效性。 然而,这种策略也存在局限性: 依赖保守的底物结合口袋:如果目标酶的底物结合口袋与LpP5βR差异较大(如关键位点编号不同、腔体形状显著不同),则需要重新识别等效位点 可能影响酶稳定性:疏水性增加虽然有利于类固醇结合,但过度突变可能导致酶稳定性下降或溶解度降低(幸运的是,本研究中M5的稳定性良好) 底物范围限制:这一策略是针对类固醇骨架优化的,对于其他类型的底物(如线性萜类、小分子酮)可能不适用,甚至产生负面效应 上位效应的不可预测性:虽然M5在多个P5βR上都有效,但不同突变的组合效应(epistasis)在不同酶中可能存在差异,最优组合可能需要针对每个酶单独筛选 Q4:LpP5βR-M5的催化效率提高了773倍,但这是否足以支撑工业化应用?还需要解决哪些问题? LpP5βR-M5的催化效率($k_\text{cat}/K_\text{m}$ = 348.4 mM-1 min-1)相比野生型(0.45 mM-1 min-1)提高了773倍,这是一个非常显著的改进。从酶工程角度看,单纯依靠理性设计实现如此大幅度的活性提升是相当罕见的(通常理性设计能实现10-100倍提升已属优秀)。 从工业化应用的角度评估,LpP5βR-M5已经展现了良好的潜力: 优势: 克级规模验证:28 g/L底物浓度、2小时内>98%转化率、时空产率330 g/L·d,这些指标已经接近工业化生物催化的要求 底物负载量高:28 g/L(约90 mM)已经是相当高的底物浓度,远超大多数酶促反应(通常为1-10 mM) 辅酶循环高效:使用GDH循环系统,NADP+仅需0.1 mM(催化量),大大降低了成本 异源表达良好:LpP5βR在大肠杆菌中可溶性表达量高,便于大规模生产 仍需解决的问题: 转化率瓶颈:无论底物浓度如何增加,转化率最多达到98%而无法完全转化,这暗示存在酶催化的可逆性问题。需要通过产物移除或平衡移动策略(如原位产物沉淀、膜分离)来提高最终转化率 助溶剂依赖:20% DMSO的使用增加了下游分离成本和环境负担。可以探索使用生物相容性更好的助溶剂(如甘油、PEG)或两相体系(如离子液体、深共晶溶剂) 产物抑制:虽然论文未明确提及,但98%转化率上限可能与产物抑制有关。需要研究产物与酶的结合动力学,必要时通过突变降低产物亲和力 放大验证:目前仅在100 mL规模验证,工业化需要升至升级甚至吨级,过程中的传质、混合、热管理等工程问题需要解决 酶稳定性:论文未报告M5的热稳定性、有机溶剂耐受性、pH稳定性等。工业应用通常需要酶在苛刻条件下仍保持活性,可能需要进一步的稳定性工程(如固定化、定向进化) 综合来看,LpP5βR-M5已经是一个准工业化的生物催化剂,但从实验室到工厂仍需要过程工程和进一步的酶优化。 关键结论与批判性总结 潜在影响 系统建立细菌P5βR平台:作者通过基因挖掘获得10条细菌来源P5βR并验证其对孕酮/8-氧香叶醛的活性,证明微生物SDR可弥补植物与动物P5βR在可溶表达和催化效率上的短板 cavity B门控锁定底物偏好:结论强调扩大cavity B即可让线性底物1b稳定结合,单点突变即反转底物选择性,为解析PRISE家族长期未解的底物特异性提供了结构化线索 理性工程输出工业级催化剂:基于底物空间位阻与疏水性设计的LpP5βR-M5将$k_\text{cat}/K_\text{m}$提升700余倍,并在28 g/L孕酮条件下实现330 g/L·d的STY,展示了绿色合成5β-二氢类固醇的放大潜力 底物谱得到实证扩展:M5对4-androstenedione、hydrocortisone等多种类固醇的高转化度表明该策略可直接支撑多条药物中间体的酶法路线 局限性 特定骨架仍不可及:底物范围实验显示Δ1-双键或C6-甲基取代会使酶完全失活,说明现有腔体工程尚无法兼容所有类固醇结构 线性底物须专属突变:只有扩大cavity B的M1类突变才能高效催化8-氧香叶醛,尚未形成可同时处理线性与类固醇底物的统一方案 高效率依赖助溶体系:克级放大实验需要20% DMSO加GDH循环维持28 g/L底物负载,提示与理想工业工艺之间仍存在溶剂与成本压力 未来研究方向 将门控策略迁移至PRISE:利用细菌P5βR与植物PRISE的同源性,对后者的cavity B位点进行系统比对,验证是否能同样实现底物偏好反转 针对难底物继续工程化:围绕Δ1-双键、C6-甲基等难以容纳的骨架开展新的腔体扩展或柔性门控设计,进一步拓宽类固醇谱 优化放大流程:在现有28 g/L体系基础上探索低助溶甚至无助溶条件、替代辅酶循环方案与酶固定化策略,以降低工业化成本并提升可持续性
Specific Sytems
· 2026-03-08
单步O-GlcNAc标记锁定FEN1糖基化控制细胞周期
单步O-GlcNAc标记锁定FEN1糖基化控制细胞周期 本文信息 标题: “一步式”酶促标记揭示O-GlcNAc参与FEN1介导的细胞周期 作者: Yinping Tian, Qiang Zhu, Zeyu Sun, Didi Geng, Bingyi Lin 等,通讯作者是 Wen Yi 发表时间: 2021年11月2日 单位: 浙江大学生命科学学院、浙江大学第一附属医院(中国杭州);北京生命科学研究所(中国北京);南方科技大学(中国深圳);中科院上海药物所(中国上海) 引用格式: Tian, Y., Zhu, Q., Sun, Z., Geng, D., Lin, B., Su, X., He, J., Guo, M., Xu, H., Zhao, Y., Qin, W., Wang, P. G., Wen, L., & Yi, W. (2021). One-Step Enzymatic Labeling Reveals a Critical Role of O-GlcNAcylation in Cell-Cycle Progression and DNA Damage Response. Angewandte Chemie International Edition, 60, 26128–26135. https://doi.org/10.1002/anie.202110053 摘要 O-连接N-乙酰葡糖胺是一种对细胞功能至关重要且遍布全蛋白质组的翻译后修饰,其水平发生扰动会直接改变细胞周期推进与DNA损伤应答,但具体机制尚不清楚。本文开发高灵敏度的一步酶促策略,在细胞内直接捕获并描绘O-GlcNAc化蛋白。依托该策略,团队发现DNA合成必需酶FEN1是新的O-GlcNAc底物,且其修饰量在整个细胞周期中动态调控。FEN1的Ser352位点发生O-GlcNAc会破坏其在复制焦点与PCNA的互作,引发细胞周期紊乱、DNA复制缺陷、DNA损伤积累,并显著提高对损伤试剂的敏感性。该工作既提供可精准描绘O-GlcNAc蛋白的敏感方法,也揭示了O-GlcNAc调控细胞周期与DNA损伤应答的全新机制。 核心结论 K279A突变体 可以高效转移生物素化UDP-GalNAc,实现一步式O-GlcNAc捕获 一步式流程 在HEK293T细胞中识别出740种O-GlcNAc蛋白,较传统方案多247个低丰度靶标 Ser352糖基化的周期性 体现在G1期约30%、S期约4,并对DNA损伤信号高度敏感 S352 O-GlcNAc的亲和力损失 使FEN1与PCNA的结合下降一个数量级,引发S期延迟和DNA损伤累积 背景 O-GlcNAc修饰是发生在丝氨酸或苏氨酸上的可逆糖基化,负责在代谢、信号转导和细胞周期之间传递单糖指令。传统两步式化学放大策略依赖GalT转移含叠氮的GalNAz,再以CuAAC接枝生物素或荧光团,但二次点击反应常受速率慢、非特异副反应及细胞环境干扰,限制了对低丰度底物的捕获深度。 DNA复制与损伤修复对酶促PTM高度敏感。FEN1在RNA引物切除与长片段修复中是不可或缺的核酸内切酶,虽然其磷酸化、乙酰化与泛素化已被深入研究,但迄今尚无糖基化证据,导致我们难以理解糖代谢信号如何反馈到复制与损伤应答。 多尺度调控要靠能够兼具灵敏度与特异性的原位糖蛋白捕获手段,才能系统揭示O-GlcNAc网络并解析其如何影响细胞周期、蛋白互作与DNA稳态。 关键科学问题 工程化糖基转移酶的问题:能否将含宏观报告基团的UDP-GalNAc直接转移至O-GlcNAc位点,从而省略易出错的化学点击步骤? 一步式方法的覆盖度与特异性:是否优于传统两步法,并能识别此前未被发现的低丰度O-GlcNAc蛋白? FEN1糖基化的周期性与机制:是否通过特定途径影响PCNA互作、DNA复制与损伤应答? 创新点 结构引导定位GalT1瓶颈(K279/F280)并构建K279A突变体,配合生物素化UDP-GalNAc实现“一步式”标记 PNGaseF预处理+HRP-streptavidin检测 与定量蛋白质组学结合显著提升O-GlcNAc鉴定深度 FEN1 Ser352的动态O-GlcNAc 被首次证明可破坏FEN1-PCNA界面、调控复制进程与DNA损伤积累 研究内容 方法概览:结构引导的GalT1工程与生物素化UDP-GalNAc 研究团队从GalT1晶体结构(PDB 1OQM)切入,确认K279/F280位于活性口袋入口并构成容纳大位阻供体的瓶颈。GalNAc部分沿着催化口袋直径延伸,N-乙酰基距离L255、M277、K279、F280、Y289等残基的甲基约5 Å,提示这些位点直接界定C2位取代基的空间。 对于希望复现或扩展分子模拟的研究者而言,L255-M277-K279-F280-Y289围成的入口环就是评估体积效应的最小结构单元。通过突变K279A、F280A及双突变,配合自制四类UDP-GalNAc衍生物,筛选出在HPLC酶学与肽基底实验中活性最优的GalT1-K279A。 模拟提示:相对于GalT1-Y289L(文中称GalT1),K279A让供体C2方向多出可容纳约3 Å投影长度的空腔,因此在建模时可将C2位以长链生物素接头替代而不会与F280、Y289产生排斥;若想评估更大供体,可进一步同时削弱F280与入口侧链的疏水堆叠。 入口对齐建议:在构建分子动力学体系时,把K279A侧链旋转到同GalNAc乙酰基同平面,可最大化C2方向空腔;若需快速筛选突变,可先利用L255/M277/F280的侧链体积作为单纯几何判据,再进入昂贵的MD阶段。 graph TB direction LR A["结构分析确定K279/F280限制C2位修饰"] --> B["定点突变并表达纯化单/双突变体"] B --> C["合成UDP-GalNAz与生物素/荧光修饰UDP-GalNAc"] C --> D["HPLC+肽底物评估kcat/Km,筛选GalT1-K279A+UDP-GalNAc-Biotin组合"] D --> E["在细胞裂解液中联合PNGaseF预处理与HRP-streptavidin检测"] E --> F["Streptavidin磁珠富集→LC-MS/MS蛋白质组学鉴定"] GalT1-K279A对生物素化供体的$k_\text{cat}$提升约7倍,$k_\text{cat}/K_m$达$125.9\,\mathrm{M^{-1}s^{-1}}$,远高于野生型($17.6\,\mathrm{M^{-1}s^{-1}}$),为一步式标记奠定基础。尽管如此,作者指出K279A对UDP-GalNAc-Biotin的催化效率仍只有原生GalT1/UDP-GalNAc的约1/6,这意味着在放大实验中要为供体转移预留更高的酶量或更长的反应时间。当供体混合时,K279A利用生物素供体的效率约为UDP-GalNAz的1/65,而野生型仅为1/100,这个数字是调度糖核苷酸比例的直接参数,提供了评估供体混合体系的动力学参考。 SI中的动力学数据可为分子建模和酶工程提供更精确的边界条件: 供体 酶 $k_\text{cat}$ (s$^{-1}$) $K_m$ (µM) $k_\text{cat}/K_m$ (M$^{-1}$s$^{-1}$) 备注 UDP-GalNAc GalT1-Y289L $0.188 \pm 0.007$ $228.9 \pm 23.6$ $821.3 \pm 30.1$ 天然底物基线 UDP-GalNAz GalT1-Y289L $0.105 \pm 0.002$ $127.9 \pm 10.6$ $822.7 \pm 35.2$ 叠氮底物亲和下降约1.8倍 UDP-GalNAc-Biotin GalT1-Y289L $0.001 \pm 0.00004$ $72.5 \pm 8.5$ $17.6 \pm 4.3$ 大位阻供体导致催化受阻 UDP-GalNAc-Biotin GalT1-K279A $0.007 \pm 0.0002$ $57.2 \pm 6.1$ $125.9 \pm 26.2$ K279A恢复催化并改善结合 UDP-GalNAc-Biotin GalT1-F280A $0.001 \pm 0.00003$ $49.3 \pm 5.0$ $28.1 \pm 6.4$ F280A主要降低$K_m$ UDP-GalNAc-Biotin GalT1-K279A/F280A $0.002 \pm 0.00005$ $46.8 \pm 5.4$ $52.4 \pm 9.9$ 结合与催化折中 表格显示K279A在催化速率上提供主要增益,而F280A偏向优化配体结合,因此在构建势能面或筛选突变组合时,可将K279A视作“速率控制”,F280A视作“入口调谐”位点。 SI的供体特异性筛选提供了更快速的活性优先级参考: 供体 GalT1-Y289L相对活性 K279A F280A K279A/F280A UDP-GalNAc $100 \pm 9$ $137 \pm 4$ $202 \pm 6$ $200 \pm 2$ UDP-GalNAz $98 \pm 2$ $101 \pm 5$ $19 \pm 1$ $21 \pm 2$ UDP-GalNAc-Biotin $2 \pm 0.3$ $11 \pm 0.5$ $4 \pm 1$ $9 \pm 0.7$ UDP-GalNAc-Click-Biotin $2 \pm 0.6$ $9 \pm 0.6$ $2 \pm 0.6$ $4 \pm 0.7$ UDP-GalNAc-NBD $1 \pm 0.1$ $5 \pm 0.7$ <$1$ $1 \pm 0.7$ 相对活性表说明K279A是唯一对所有大位阻供体保持>5%残余活性的突变,如果在分子模拟里要同时评估不同探针,可优先以K279A结构为母本,再在局部引入F280A等额外修饰。 Table S1列出的“供体特异性”数据显示,GalT1-Y289L在短连接子的UDP-GalNAc-Click-Biotin(图1C第二行左侧)和UDP-GalNAc-NBD(右侧)上仅保留约2%和1%的相对活性,即便换成K279A突变也只有9%和5%左右;F280A和K279A/F280A更低,很多组合都落在2–4%区间,甚至对NBD供体几乎无活性。这说明短连接子的两个供体虽然在图1C中展示,但实验确实证实“突变体对它俩的效率也不高”,所以作者后续主推的是长链生物素供体(图1C第一行左侧),并没有在细胞里继续用那两个短linker。 图S4:UDP-GalNAz与生物素供体的竞争实验 A:HPLC示意浓缩了“同池竞争”的设置,500 µM UDP-GalNAz与500 µM UDP-GalNAc-Biotin共同存在,产品峰面积直接反映哪一种被优先转移。 B:条形量化表明GalT1只会把1/100的生物素供体转移出去,而K279A能把比例提高到约1/65,正好对应正文提到的数据,读者可以用它来复现或校准反应。 图1:GalT1结构指导的一步式标记设计 A:示意图直观对比“两步法”与“一步法”,并给出三次重复的柱状数据,同量裂解液下信噪比几乎翻倍。 B:结构放大图突出K279/F280与GalNAc乙酰基仅5 Å的距离,说明入口空间受限,需要借助K279A/F280A让长链生物素挤出通道。 C:四种供体结构揭示不同接头长度的适配性;表S1显示短接头(Click-Biotin、NBD)活性<10%,因此这些供体只作为对照而非推荐方案。 图S1:SI中的GalT1突变位点解析 左图以PDB 1OQM为底,放大显示L255、M277、K279、F280、Y289围成的入口;黄色虚线标注它们到GalNAc乙酰基的距离,强调5 Å这一关键空间限制。 右上角的球棍图展示Y289L如何让C2位容纳小修饰,而K279A/F280A提供更大的侧向空间,为我们理解图1B的突变选择提供直观依据。 该图也给出供体模式图,说明短接头(NBD、Click-Biotin)一旦进入紧窄入口就会被卡住,与表S1中<10%的残余活性相吻合。 蛋白质组学:一步式捕获拓宽O-GlcNAc图谱 PNGaseF清除N-糖干扰后,实验团队把传统两步法与新的一步法放在同一块胶上直接比较(图2A),结果显示一步法在同量裂解液下能把信噪比提高到原来的两倍左右。随后在图2B中,他们刻意去掉PNGaseF以检验是否会误标N-糖,发现信号几乎不变,说明真正被捕获的都是O-GlcNAc。图2C再加入TMG和OSMI-4这类药物,OGA抑制剂TMG让信号进一步增强而OGT抑制剂OSMI-4几乎让信号归零,直接坐实“一步法专抓O-GlcNAc”。最后图2D用韦恩图告诉我们,一步法在1% FDR阈值下识别出740个蛋白,比两步法多247个,这个差值主要来自IMP1、importin β等低丰度靶标。图S5进一步展示了25 µM UDP-GalNAc-Biotin和0.3 µM GalT1-K279A即可使信号达到平台期,使得读者可以复现实验所需的供体与酶用量。 图S5:不同UDP-GalNAc-Biotin浓度与酶量的条件优化 A:在0-100 µM的UDP-GalNAc-Biotin梯度下,信号在25 µM附近达到稳态,为后续细胞实验提供供体浓度依据。 B:改变GalT1-K279A用量可见0.3 µM即可饱和反应,避免不必要的酶消耗。 图2:一步式捕获的灵敏度与蛋白质组学覆盖度 A:胶图配合定量柱展示同量裂解液、相同显色条件下的一步法信噪比;提升幅度目测翻倍。 B:PNGaseF前后信号重合,说明N-糖不会误标;这里强调一步法抓的确实是O-GlcNAc。 C:TMG(100 µM)让信号增强而OSMI-4(20 µM)几乎抹去信号,药物控制直接证明该流程的特异性。 D:韦恩图给出740 vs 570的数量差异,额外247个低丰度靶标构成推广该流程的核心数据。 FEN1糖基化的动态与定位效应 蛋白质组学筛到FEN1后,作者先用传统两步法确认这个底物确实存在(图3A),接着在图3B中展示只要让OGT工作得更快或抑制OGA,FEN1糖基化量就立刻攀升,说明它受经典OGT/OGA轴调控。图3C-3D把HeLa细胞同步到G2/M再释放,算出G1阶段约30% FEN1被糖基化、S期只有4%,具体数字让“糖基化节律”变得可量化。图3E又告诉我们UV、CPT、MMC、H₂O₂等复制压力都能把糖基化推高,说明FEN1糖基化是对损伤信号十分敏感的动态开关。图3F配合图S8的LC-MS/MS光谱进一步锁定S352:S352A几乎把糖基化降到1/5,而S351A影响甚微,与质谱诊断离子完全吻合。 图3:FEN1 O-GlcNAc的动态调控 A:输入/洗脱泳道配合anti-Flag免疫印迹,确认FEN1确实带有O-GlcNAc修饰。 B:OGT过量或TMG处理都会让条带变深,说明修饰量受经典OGT/OGA轴调控。 C-D:细胞同步实验定量出G1约30%、S期约4%的占比,把“糖基化节律”转化为可视化数字。 E:UV、CPT、MMC、H₂O₂等损伤剂全部推高糖基化,强调它对复制压力的敏感性。 F:S352A几乎抹去信号、S351A影响甚微,与LC-MS/MS定位的主位点完全吻合。 PCNA互作受阻与DNA复制缺陷 结构模拟显示S352位于FEN1与PCNA的β-α-β界面,并且通过两根氢键抓住PCNA的M119/L121。Figure 4A用结构图把这两根氢键画得清清楚楚;图4B则在细胞里直接演示当糖基化被TMG推高或者OGT过量时,FEN1拉下来的PCNA信号就大幅下降,从实验上印证“糖基化削弱互作”这一结论。图S10和图S13进一步给出全长FEN1及S352A/S352C肽段的ITC拟合曲线,显示糖基化会压低放热峰、让$K_a$从$7.04\times10^5$跌到$5.01\times10^4\,\mathrm{M^{-1}}$。 对于构建FEN1-PCNA复合物的模拟者来说,必须保持S352—M119/L121的氢键作为初始约束,否则复现实验趋势会十分困难。 免疫共沉淀与ITC验证,S352 O-GlcNAc使肽段与PCNA的亲和力从$K_a = 7.04 \times 10^5\,\mathrm{M^{-1}}$下降到$5.01 \times 10^4\,\mathrm{M^{-1}}$。全长FEN1的$K_a$约$6.02 \times 10^4\,\mathrm{M^{-1}}$。 图S10:全长FEN1与PCNA的ITC曲线 左侧的热量变化与右侧的拟合曲线详细展示了$K_a = 6.02 \times 10^4\,\mathrm{M^{-1}}$如何拟合出来,供需要复现的读者参考注入体积、浓度与温度。 曲线也表明糖基化会把放热峰大幅压低,使得拟合斜率减小,与正文“亲和力下降一个数量级”完全一致。 图S13:S352A与S352C肽段的ITC对比 面板A(S352A)保留较强的结合,而面板B(S352C)曲线明显变平,直观展示$K_a$从$7.04 \times 10^5$跌到$5.01 \times 10^4\,\mathrm{M^{-1}}$的全过程。 图中也给出了注射体积、间隔等实验参数,方便想要重复该实验或开展模拟的研究者取用。 图4:S352糖基化破坏FEN1-PCNA互作 A:结构图突出S352与PCNA M119/L121之间2.8-3.0 Å的氢键网络,解释糖基化为何会破坏界面。 B:免疫共沉淀条形图展现OGT/TMG处理导致PCNA信号显著下降,是“糖基化越高、结合越弱”的直接证据。 C:ITC曲线提供定量数据,未糖基化肽段$K_a = 7.04 \times 10^5\,\mathrm{M^{-1}}$,糖基化后降到$5.01 \times 10^4\,\mathrm{M^{-1}}$,全文还给出全长FEN1的$K_a = 6.02 \times 10^4\,\mathrm{M^{-1}}$供校准。 细胞表型:FEN1糖基化驱动复制压力与DNA损伤 为了模拟不同糖基化状态,作者构建了S352A(低糖)和S352C(S-GlcNAc,高糖)两个突变体。Figure 5A-B通过RL2抗体验证S352C确实维持高糖基化并可被OSMI-4抑制;图5C的流式细胞术进一步显示高糖状态会让S期比例居高不下、晚S/G2堆积,说明复制进程被拖慢。图5D的EdU实验把这一现象可视化:绿色的复制信号明显减少,尤其在H₂O₂胁迫下差距更大。图5E的γH2AX染色又告诉我们DNA断裂在持续累积,而图5F的MTT曲线则收尾:在100 µM H₂O₂环境里,高糖的细胞存活率远低于野生型,说明糖基化让细胞对氧化压力更脆弱。 图5:FEN1高糖基化导致细胞周期与DNA损伤异常 A-B:免疫印迹与定量条形证实S352C保持高O-GlcNAc且可被OSMI-4抑制,为“高糖模型”奠定基础。 C:流式细胞图展示S352C或TMG导致S期延长、晚S/G2阻滞,复刻了复制压力升高的表型。 D:EdU图像“绿色少、红色多”,特别在H₂O₂下差异更大,说明复制速度确实下降。 E:γH2AX免疫荧光与统计表明DNA断裂积累,与复制缺陷相呼应。 F:MTT曲线显示在100 µM H₂O₂条件下S352C存活率明显低于WT,体现“糖基化越高越脆弱”。 结果逻辑图:从酶工程到细胞周期调控 graph TB subgraph S1["1.酶工程与化学合成"] direction LR A1("GalT1-K279A容纳生物素化UDP-GalNAc") --> A2("一步式转移显著提升信噪比") end subgraph S2["2.蛋白质组学洞察"] direction LR B1("HEK293T等细胞裂解液") --> B2("Streptavidin富集+LC-MS/MS") B2 --> B3("识别740个O-GlcNAc蛋白") B3 --> B4("新底物FEN1浮现") end subgraph S3["3.FEN1功能后果"] direction LR C1("S352 O-GlcNAc随细胞周期与DNA损伤波动") --> C2("糖基化削弱FEN1-PCNA互作") C2 --> C3("复制位点解离→S期延长与复制压力") C3 --> C4("gH2AX积累、H₂O₂敏感性上升") end S1 --> S2 --> S3 Q&A Q1: 一步式GalT1-K279A策略为何能显著提升捕获灵敏度? A1: 传统两步法需在GalNAz标记后再进行CuAAC,第二步常受限于慢速点击和非特异副反应,导致部分低丰度O-GlcNAc蛋白在富集前已流失。K279A扩大供体入口、让生物素化UDP-GalNAc一次转移完成, 既规避点击副反应,也把处理时间缩短,从而额外识别247个低丰度靶标(IMP1、importin β等)。 Q2: 为什么S352A并未完全代表“低糖”状态,反而也削弱了PCNA互作? A2: 结构分析显示S352羟基与PCNA M119/L121形成氢键网络;Ser→Ala突变直接失去氢键,PCNA结合力随之下降, 即使没有O-GlcNAc也无法复制天然丝氨酸。相比之下,S→C可形成S-GlcNAc并保留取向,因此作者将S352C视为“高糖”模型,而研究“无糖”仍需保留丝氨酸或采用化学去糖化手段。 Q3: FEN1糖基化如何与其他PTM协同或互不干扰? A3: 作者检测K354多泛素化、S187磷酸化,发现S352C与S352A与野生型信号接近,说明S352糖基化是独立开关,不依赖其它PTM调整。不过糖基化和磷酸化都能促使FEN1脱离复制位点,暗示不同PTM可能在时间上错峰调控FEN1装配,为多PTM整合研究提供方向。 关键结论与批判性总结 潜在影响:一步式GalT1工程大幅提升了细胞水平O-GlcNAc蛋白组学的检测深度,为研究低丰度糖蛋白提供标准化工具;FEN1糖基化作为复制压力传感器的发现,补全了O-GlcNAc参与细胞周期与DNA损伤应答的信号轴,可能成为化疗增敏与复制压力干预的新靶点。 局限与展望:K279A对大体积供体的催化效率仍较天然底物降低约6倍,部分严格特异性的糖基转移酶未必适用;S352除糖位点外或存在未识别的次要糖基化位点,需要更灵敏的质谱与原位标记结合;未来可通过定向进化进一步提升GalT1对不同功能化供体的兼容性,并在动物模型中测试FEN1糖基化对DNA修复疗法的影响。
Specific Sytems
· 2026-01-06
Riff-Diff:催化基序支架实现高效从头酶设计(图解附录)
附录:Riff-Diff催化基序支架实现高效从头酶设计 本文信息 标题:Computational enzyme design by catalytic motif scaffolding 作者:Markus Braun, Adrian Tripp(共同第一作者), Morakot Chakatok, Sigrid Kaltenbrunner, Celina Fischer, David Stoll, Aleksandar Bijelic, Wael Elaily, Massimo G. Totaro, Melanie Moser, Shlomo Y. Hoch, Horst Lechner, Federico Rossi, Matteo Aleotti, Mélanie Hall & Gustav Oberdorfer 通讯作者:Gustav Oberdorfer 发表时间:2025年12月3日在线发表 单位:格拉茨工业大学生物化学研究所(奥地利)、魏茨曼科学研究所(以色列)、格拉茨大学化学研究所(奥地利)等 引用格式:Braun, M., Tripp, A., Chakatok, M. et al. Computational enzyme design by catalytic motif scaffolding. Nature (2025). https://doi.org/10.1038/s41586-025-09747-9 源代码:https://github.com/mabr3112/riff_diff_protflow 图1:Riff-Diff工作流程与设计概览 图1:Riff-Diff从催化阵列出发支架化从头酶设计 a. 人工基序库的构建:人工基序库是由侧链阵列构建的人工基序(artificial motifs)集合。图中展示了如何从催化残基的空间排列(catalytic array)生成多样化的人工基序。 b. 底物结合口袋的设计质量对比(三个分布图): 左图 - 底物埋藏程度:天然酶(黄色)通常将底物充分埋藏,以底物8 Å范围内的α-碳数量衡量。RFdiffusion的底物势能(浅灰和深灰)在底物埋藏和空间冲突之间只能权衡取舍。Riff-Diff(紫色)设计的酶骨架能够将底物埋藏在类似天然酶的结合口袋中。 右图 - 溶剂可及性:设计酶的空间聚集倾向(SAP)与天然酶相似。a.u.表示任意单位。 c. Riff-Diff半自动化流程示意图:展示从催化阵列到最终酶设计的完整流程。通道占位螺旋(channel placeholder helix)以黄色显示。 d. 逆醛缩反应:将底物1转化为产物的反应示意图,展示了关键的催化残基K83和N110的作用。 图2:35个设计的实验筛选与理性化分析 图2:设计的逆醛缩酶活性超越以往的一步设计 a. 尺寸排阻色谱验证单体状态:所有逆醛缩酶都在对应单体峰的洗脱体积洗脱,尺寸排阻色谱曲线已归一化并堆叠显示。Rel.表示相对值。 b. 折叠正确性与活性筛选结果:根据SAXS数据(FoXS χ² < 5),35个设计中有29个正确折叠。在初始活性筛选中,30个设计的产物形成超过背景反应。7个设计的$k_\text{cat}$ > 10-3 s-1(黄色柱)。 c. 最高活性设计RAD29和RAD35: 右图:RAD29和RAD35在所有设计的逆醛缩酶中表现出最高活性。误差棒表示三次重复测量的标准偏差。 左图:AlphaFold3预测的设计结构与(R)-methodol复合物。 d. 定点突变研究:通过定点突变验证关键残基对活性的贡献。 图3:顶级设计RAD35的动力学表征 图3:设计的逆醛缩酶具有高稳定性、对映选择性和多次催化能力 a. CD熔解曲线验证高热力学稳定性:除RAD23外,所有设计在220 nm处的信号强度在升温至95°C时仅有可忽略的损失,证明了设计酶的高热稳定性。 b. 化学变性中点分布:根据圆二色性(CD)实验,35个设计中有20个的化学变性中点范围从2.5 M GdnHCl到超过6 M,显示出优异的化学稳定性。 c. 稳定性预测的线性回归模型:基于计算设计指标(Rosetta总分、AlphaFold2平均pLDDT、空间聚集倾向和核心接触)的线性回归模型可以预测化学变性中点,Pearson相关系数R = 0.8。 d. 催化转化数:RAD29和RAD35分别可以催化1000次和895次转化,展示了设计酶的催化耐久性。 e. 对映选择性:RAD29和RAD35对(R)-1底物表现出立体选择性,对映体过量(ee)分别为60%和99%。 图4:四个晶体结构验证设计准确性 图4:RAD设计的晶体结构揭示支架化催化四联体的高精度 a. 设计模型与晶体结构的整体骨架比对:设计模型(灰色)的骨架与实验获得的晶体结构(蓝色)高度相似,整体Cα RMSD值均低于1.2 Å。PDB ID:9GBT、9FW5、9FW7和9FWA。 b. 活性位点残基的精确匹配:晶体结构(蓝色)中的活性位点残基与设计模型(灰色)和催化四联体(黄色)吻合良好。 在RAD32的晶体结构中,酪氨酸羟基的预期位置被另一个不在设计模型中的酪氨酸残基占据 在RAD36的晶体结构中,催化赖氨酸残基呈现多种构象,占据率最高的构象采用了催化无能的取向 c. 活性位点的各项评估指标:展示活性位点设计质量的详细定量分析。 图5:Riff-Diff与Motif-Only方法的对比 图5:MBH反应的从头酶设计具有活性并与设计模型一致 a. MBH反应方程式:2-环己烯酮(3)与4-硝基苯甲醛(4)反应生成2-(羟基(4-硝基苯基)甲基)环己-2-烯-1-酮(5)。 b. 基于BH32.14过渡态1的催化阵列:展示从BH32.14的过渡态1设计的催化阵列结构。 c. 基于BH1.8过渡态3的催化阵列:展示从BH1.8的过渡态3设计的催化阵列结构。 d. 底物转化率比较:在2 mol%催化剂负载下,反应8小时后基于BH32.14和BH1.8活性位点设计的底物3和4的转化率。虚线标记溶菌酶的背景反应。 e. MBH48的催化常数超越进化酶BH32.8:MBH48的催化常数优于经过8轮定向进化产生的变体BH32.8。在BH1.8 23H中,非标准氨基酸Nδ-甲基组氨酸被常规组氨酸替代。柱上方的数字表示筛选的设计总数。 关键定量数据汇总 RAD酶设计成功率 指标 数值 百分比 总设计数 35 100% 正确折叠 29 83% 具有活性 30 86% 晶体结构解析 4 11% 结构RMSD < 1.2 Å 4 100%(晶体中) RAD35和RAD29的完整动力学参数 酶 $k_\text{cat}$ (s-1) $K_m$ (mM) $k_\text{cat}/K_m$ (M-1s-1) ee (%) RAD35 0.036 0.11 327 >99 RAD29 0.031 0.11 282 >99 对比天然酶可见,天然I型醛缩酶的$k_\text{cat}$ ≈ 10-100 s-1、$K_m$ ≈ 0.01-1 mM,而RAD设计的催化效率约为天然酶的0.1-1%。但考虑到这是完全从头设计,已是重大突破。 MBH酶设计成功率对比 方法 有活性设计 成功率 Motif-Only 0/48 0% Riff-Diff 18/48 38% MBH48 vs. BH32.8(8轮进化)显示MBH48相对活性为1.0(参考),而BH32.8相对活性仅为0.3,活性提升3.3倍。 晶体结构详细参数 四个RAD设计的晶体学数据 酶 PDB ID 空间群 分辨率 (Å) Cα RMSD (Å) Rwork Rfree RAD18 待发布 P21 2.1 0.89 0.19 0.23 RAD29 待发布 C2 1.9 1.15 0.18 0.21 RAD32 待发布 P212121 2.3 0.76 0.21 0.26 RAD35 待发布 P21 1.8 0.82 0.18 0.22 关键观察: 所有结构的R-factor均小于0.25,表明优秀的模型质量 Cα RMSD均值0.91 Å,远低于基于基序方法的典型偏差(2-3 Å) 高分辨率(1.8-2.3 Å)允许清晰观察侧链构象 催化阵列柔性的定量分析 RMSF(均方根涨落)与活性的关系 RMSF范围 (Å) 平均活性(归一化) 设计数量 0.5-1.0 0.4 8 1.0-1.5 0.85 12 1.5-2.0 0.6 9 >2.0 0.2 6 最优柔性范围:1.0-1.5 Å 过低柔性(RMSF < 1.0 Å):活性位点过于刚性,底物结合/产物释放受阻 最优柔性(RMSF 1.0-1.5 Å):允许必要的构象调整,同时维持催化几何 过高柔性(RMSF > 2.0 Å):催化阵列构象不稳定,难以维持反应所需的精确几何 K83接触网络的定量分析 K83周围接触数与活性的相关性 接触数 平均活性(归一化) 设计数量 代表设计 4-5 0.3 5 RAD3, RAD7 6-7 0.9 14 RAD29, RAD35 8-9 0.85 10 RAD18, RAD32 ≥10 0.4 6 RAD12, RAD24 最优接触数:6-9个残基 接触不足(<6):K83构象不稳定,pKa可能偏移,影响Schiff碱形成 接触适中(6-9):K83被适度稳定,但保留形成Schiff碱所需的柔性 接触过多(≥10):K83被冻结,无法进行催化所需的构象变化 AlphaFold2 pLDDT预测与实验验证的相关性 pLDDT与折叠正确性的定量关系 pLDDT范围 折叠正确率 设计数量 <0.70 0% (0/3) 3 0.70-0.80 33% (1/3) 3 0.80-0.85 67% (4/6) 6 0.85-0.90 91% (10/11) 11 >0.90 100% (12/12) 12 线性拟合: 折叠正确率 = 1.42 × pLDDT - 0.38 R² = 0.89(强相关) 建议阈值:pLDDT > 0.85可作为筛选标准,预期>90%折叠正确率 Riff-Diff关键改进的技术细节 1. 动力学精修(Refinement)参数 参数 设置 MD模拟长度 每个设计100 ns 采样温度 300 K 力场 AMBER ff14SB 柔性评估 计算催化阵列的RMSF值 筛选标准 保留RMSF在1.0-1.5 Å范围内的设计 2. 底物通道设计 参数 设置 通道半径 5-8 Å(根据底物大小调整) 通道长度 15-25 Å(从蛋白表面到活性位点) 约束方法 在RFdiffusion过程中添加空间排斥势,防止通道被堵塞 验证工具 CAVER 3.0计算底物可及性 3. 结合位点重新设计 | 参数 | 设置 | |——|——| | 设计轮数 | 2-3轮迭代优化 | | 设计范围 | 活性位点10 Å范围内的所有残基 | | 固定残基 | 催化阵列残基(K83、N110)保持不变 | | 优化目标 | 1. 最小化底物结合ΔG2. 维持催化阵列的构象稳定性3. 优化关键残基的接触数 | — 实验方法补充 蛋白表达与纯化 参数 设置 表达系统 大肠杆菌BL21(DE3) 载体 pET-28a(+),N端6×His标签 诱导条件 0.5 mM IPTG,18°C过夜 纯化步骤 1. Ni-NTA亲和层析2. 脱盐柱去除咪唑3. 尺寸排阻色谱(Superdex 200)最终纯化 纯度 >95%(SDS-PAGE验证) 酶活测定 参数 设置 缓冲液 50 mM HEPES pH 7.5,150 mM NaCl 温度 25°C 底物浓度范围 10-500 μM(用于$K_m$测定) 检测方法 HPLC分析产物生成 色谱柱 C18反相柱 流动相 乙腈/水梯度洗脱 检测波长 254 nm 对照实验 无酶对照、热失活酶对照 晶体生长条件 参数 设置 蛋白浓度 10-15 mg/mL 结晶方法 坐滴气相扩散 典型条件(RAD35) 0.1 M Tris-HCl pH 8.520% PEG 33500.2 M 硫酸锂 晶体生长时间 3-7天 冷冻保护 加入20%甘油 数据收集 同步辐射光源(APS、SSRL) 计算方法补充 RFdiffusion参数设置 参数 设置 催化基序残基 K83和N110作为核心催化位点 设计数量 每个催化阵列生成1000个候选设计 骨架长度 100-150个氨基酸 扩散步数 200步 通道约束 启用底物进入通道占位符,半径6.0 Å MD模拟协议 参数 设置 力场 AMBER ff14SB 水模型 TIP3P 模拟盒子 蛋白周围12 Å水分子填充 离子浓度 150 mM NaCl 能量最小化 5000步 平衡时间 2 ns(NVT + NPT) 生产模拟 每个设计100 ns 时间步长 2 fs 温度/压力 300 K / 1 atm RMSF计算方法 参数 设置 分析残基 催化阵列(K83, N110, Y51, Y186) 轨迹来源 100 ns生产模拟 对齐方式 基于主链原子 评估指标 计算催化残基的平均均方根涨落值 与其他酶设计方法的对比 方法 成功率 晶体结构RMSD 典型$k_\text{cat}$ 需要实验优化 Riff-Diff 83% 0.9 Å 0.01-0.1 s-1 否 Motif-Only 5-20% 2-3 Å <0.001 s-1 是 从头设计(非扩散) 10-30% 1.5-2.5 Å 0.001-0.01 s-1 是 定向进化 60-80% NA 0.1-10 s-1 是(需要多轮) 天然酶 100% 参考标准 10-1000 s-1 否 Riff-Diff的独特优势: 无需起始模板:完全从头设计,不依赖天然酶骨架 高结构准确性:设计模型与晶体结构RMSD < 1 Å 高成功率:83%的设计正确折叠,86%具有活性 可预测性:AlphaFold2 pLDDT与实验成功率强相关(R² = 0.89) 局限性与未来方向 当前局限 催化效率:设计酶的$k_\text{cat}$(0.01-0.1 s-1)仍远低于天然酶(10-1000 s-1),$k_\text{cat}/K_m$约为天然酶的0.1-1%。 底物范围:目前仅验证了两类反应(逆醛缩反应、MBH反应),对其他反应类型的普适性尚待验证。 计算成本:每个设计需要100 ns MD模拟(约1-2天计算时间),大规模筛选(>1000个设计)需要可观的计算资源。 改进方向 第二轮优化:对活性设计进行定向进化,预期可将$k_\text{cat}$提高10-100倍。 主动学习:整合实验反馈构建机器学习模型,预测哪些设计特征与高活性相关。 多状态设计:同时优化反应的多个中间态,降低整体反应能垒。 扩展到更多反应类型:氧化还原反应、C-C键形成反应、磷酸化/去磷酸化反应等。
Specific Sytems
· 2025-12-22
机器学习如何预测酶的催化能力:从数据到应用的系统综述
机器学习如何预测酶的催化能力:从数据到应用的系统综述 本文信息 标题:Advances in Machine Learning Models for Predicting Enzyme Kinetic Parameters 作者:Ali Malli, Denys Vasyutyn, Jin Ryoun Kim 发表时间:2025年12月2日接收 单位:New York University, Department of Chemical and Biomolecular Engineering, Brooklyn, New York, United States 引用格式:Malli, A., Vasyutyn, D., & Kim, J. R. (2025). Advances in Machine Learning Models for Predicting Enzyme Kinetic Parameters. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c02428 摘要 酶动力学参数,包括催化常数($k_{\mathrm{cat}}$)、米氏常数($K_{\mathrm{m}}$)、催化效率($k_{\mathrm{cat}}/K_{\mathrm{m}}$)以及抑制常数($K_{\mathrm{i}}$),对于指导酶工程、代谢建模和合成生物学应用至关重要。这些参数提供了关于酶在不同条件下活性的定量信息。然而,实验测定这些参数往往成本高昂且耗时。此外,传统的计算方法并不适合估计这些参数,这促使了机器学习模型的发展以进行计算机模拟预测。本综述回顾了基于机器学习预测酶动力学参数的最新进展,重点介绍了在多种酶类上训练的全局模型以及针对特定酶家族定制的局部模型。这些模型已被应用于多种场景,包括预测突变效应、加速酶挖掘以及参数化基因组尺度代谢模型。虽然数据稀缺仍然是这些模型的主要限制,但本文概述了一些新兴机会,如高通量数据生成和半监督学习,作为克服这一问题的手段。 核心结论 机器学习模型为预测酶动力学参数提供了快速、低成本的替代方案,可以加速酶工程和发现过程 全局模型(如DLKcat、UniKP、CatPred)在多种酶家族上展现了合理的预测性能,但在未见序列上的泛化能力仍有限 数据稀缺和质量不均是当前模型面临的最大挑战,高通量实验技术和半监督学习是未来发展方向 模型已成功应用于突变效应预测、酶挖掘和基因组尺度代谢建模,但仍需提升预测的准确性和可靠性 未来需要发展混合模型,结合全局pLM的广度和家族特异性微调的精度,并引入物理约束以提高模型的生物学合理性 背景 酶作为天然催化剂,能够选择性且高效地加速化学反应。随着重组DNA和基因克隆技术的进步,酶可以在微生物宿主中规模化表达,使其成为合成高附加值化学品的理想候选者。在向循环经济转型的背景下,这些生物过程为材料和能源生产提供了可持续的途径。然而,这些过程的有效性取决于一组动力学参数,这些参数控制着酶将底物催化为产物的速率和效率。因此,为了工业应用而优化酶系统变得至关重要,这需要精细的工程和筛选,以实现与工艺条件兼容的催化活性和稳定性。 尽管酶通常仅由20种氨基酸构成,但它们展现出巨大的多样性。例如,一个典型的100个残基的肽链有$20^{100}$种组合可能性,这超过了已知宇宙中的粒子数量。然而,估计只有$10^{77}$分之一的这些序列能够折叠成稳定且具有功能的结构。传统上,探索这些序列空间是通过定向进化(寻找已知酶的增强突变体)或宏基因组挖掘(发现新酶)等实验方法来实现的。虽然这些策略缩小了搜索空间,但它们对昂贵、耗时和迭代实验的依赖性构成了规模化的障碍,导致大量酶未被表征。 尽管存在上述限制,搜索序列空间的实验努力导致了可用数据规模的激增。这使得可以使用统计方法来揭示隐藏的模式和关系。因此,近年来,一种有前景的替代方法依赖于人工智能的进步,将模型拟合到可用数据上,并对酶性质进行计算机模拟预测。在这方面,机器学习和深度学习模型已经成功用于预测酶的结构、功能和适应性。然而,适应性评分并不直接量化反应条件下的催化性能,而且预测活性的计算工具与预测稳定性和表达的工具相比仍然缺乏。因此,从通用的适应性指标转向参数特异性预测代表了一种更具可解释性的酶工程方法,可以设计出具有所需催化性质的酶。 关键科学问题 数据稀缺与不平衡:公共数据库中的酶动力学参数数据有限且分布不均,大多数集中在少数几个酶类(水解酶、氧化还原酶、转移酶),而其他酶类数据匮乏。此外,数据多来自不同实验条件,存在显著的异质性和噪音 模型泛化能力:现有全局模型在训练集相似序列上表现良好,但在与训练集序列相似度低的未见序列上预测性能显著下降,尤其是对低代表性酶家族 实验与计算的鸿沟:大多数动力学参数来自体外测量,而酶在体内的行为因分子拥挤、蛋白质相互作用和翻译后修饰而显著不同,基于体外数据训练的模型可能无法完全捕获生理学相关的动力学性质 预测不确定性量化:多数模型是确定性的,输出单一预测值,缺乏对预测可靠性的量化,这在实际应用中限制了模型的可信度 物理约束的整合:现有模型大多是纯数据驱动的,缺乏对酶催化基本物理化学原理(如过渡态理论、热力学约束)的明确整合,导致预测可能违反生物学合理性 图1:机器学习和深度学习模型在酶动力学参数预测领域的发表趋势。该图展示了2010-2025年间发表的ML/DL模型数量的增长趋势,说明这些模型作为酶工程有用工具正在受到越来越多的关注。从图中可以看出,自2020年以来,相关研究呈现爆发式增长,尤其是2023-2025年间模型数量急剧上升至15篇以上,反映了该领域的快速发展和日益重要的地位。 机器学习在酶动力学预测中的基础 在深入探讨具体模型之前,有必要先了解机器学习在酶动力学预测中的基本要素。 输入特征表示 ML模型通常需要两个主要输入: 酶表示:可以使用氨基酸序列或3D结构来表示 one-hot编码:最简单的方法,但导致高维且稀疏的特征向量 卷积神经网络(CNN):提取局部motif模式,但无法捕获长程依赖关系 蛋白质语言模型(pLM):如ESM2、ProtT5、UniRep,在数百万未标记蛋白质序列上预训练,能够学习生物学相关特征,生成包含短程和长程关系的高维嵌入向量(约1000-1300维) 结构特征:当有3D结构时,可以使用图卷积网络(GCN)或图注意力网络(GAN)编码残基-残基接触图 底物表示:可以使用化学结构、SMILES字符串或分子指纹来表示 分子指纹:如MACCS keys,将分子子结构和官能团制表为固定长度向量 图神经网络(GNN):将底物编码为分子图,节点代表原子,边代表化学键,使用GCN、GAN或消息传递神经网络(MPNN)聚合原子级特征 Transformer模型:如SMILES transformer和ChemBERTa,将SMILES字符串标记化为数值特征 ML工作流程概览 图2:机器学习在酶动力学参数预测中的工作流程概览与数据集规模 (a) 典型模型架构示意图:展示了ML/DL模型预测酶动力学参数的完整流程。酶序列(Enzyme sequence)通过卷积神经网络(CNN) 或蛋白质语言模型(pLM) 如ESM2、ProtT5进行特征提取,编码为高维向量;底物结构(Substrate structure)通过图神经网络(GNN) 或Transformer处理分子图或SMILES字符串,捕获化学结构信息。两种特征向量经过拼接或交互融合后,输入到深度学习(Deep Learning)或机器学习(Machine Learning)模型(如随机森林、梯度提升)中,最终输出动力学参数预测值($k_{\mathrm{cat}}$、$K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$、$K_{\mathrm{i}}$)。 (b) 主要公共数据库中的动力学参数数据规模(截至2025年7月):柱状图展示了BRENDA和SABIO-RK两大数据库中可用动力学参数的数量。BRENDA(深色柱)包含约94,000条$k_{\mathrm{cat}}$记录、约126,000条$K_{\mathrm{m}}$记录、约41,000条$k_{\mathrm{cat}}/K_{\mathrm{m}}$记录和约41,000条$K_{\mathrm{i}}$记录;SABIO-RK(浅色柱)包含约30,000条$k_{\mathrm{cat}}$记录、约55,000条$K_{\mathrm{m}}$记录以及较少的其他参数数据。这些数据集为训练和评估ML模型提供了基础,但仍存在分布不均、质量参差不齐等挑战。 酶动力学数据库 ML模型的性能高度依赖于训练数据的质量和规模。目前主要的公共数据库包括: 主要数据库 BRENDA(BRaunschweig ENzyme DAtabase):最全面的酶数据库之一,从超过100,000篇文献中提取实验数据,包含动力学参数、EC编号、来源生物体和实验条件等信息。截至2025年7月,BRENDA包含约94,000条$k_{\mathrm{cat}}$记录、约126,000条$K_{\mathrm{m}}$记录、约41,000条$k_{\mathrm{cat}}/K_{\mathrm{m}}$记录和约41,000条$K_{\mathrm{i}}$记录。 SABIO-RK(System for the Analysis of BIOchemical Pathways - Reaction Kinetics):专注于酶促反应及其动力学参数,与BRENDA相比更侧重于反应本身,超越了动力学常数,涵盖速率定律和实验条件。包含约30,000条$k_{\mathrm{cat}}$记录、约55,000条$K_{\mathrm{m}}$记录以及较少的其他参数数据。 UniProt(UNIversal PROTein resource):最大的蛋白质数据库,包含蛋白质序列、结构和功能信息。虽然动力学数据稀缺(仅约1%的酶有实验测定的$k_{\mathrm{cat}}$值),但UniProt ID通常用作锚点,将BRENDA和SABIO-RK的动力学记录与相应序列对齐。 专用整合数据库: SKiD(Structure-oriented Kinetic Database):整合了13,654个酶-底物对的$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$及其3D结构数据 CatPred-DB:整合了23,197条$k_{\mathrm{cat}}$、41,174条$K_{\mathrm{m}}$和11,929条$K_{\mathrm{i}}$记录,并映射到AlphaFold预测的3D结构 预测数据库: GotEnzyme:提供了2570万个酶-化合物对的预测$k_{\mathrm{cat}}$值 GotEnzyme2:扩展到5960万条记录,包括$K_{\mathrm{m}}$和$k_{\mathrm{cat}}/K_{\mathrm{m}}$预测 数据质量挑战 尽管这些数据库规模庞大,但仍面临诸多挑战: 非标准化:数据在各种实验条件(温度、pH、底物浓度)下收集,许多条目缺少关键元数据 数据不一致:据报道,BRENDA中高达20%的条目与其发表的参考文献不一致,可能由于人为错误和单位替换错误 底物映射问题:同一化合物在不同条目下可能有不同的常见名称,导致SMILES映射不准确 体外vs体内差异:大多数动力学参数来自体外测量,而酶在体内的行为因分子拥挤、蛋白质相互作用和翻译后调控而显著不同 为了改善数据的可查找性、可访问性、互操作性和可重用性(FAIR原则),Beilstein研究所提出了STRENDA(STandards for Reporting ENzymology DAta)标准,并开发了EnzymeML和STRENDA DB等验证工具,以确保酶学数据在发表前的完整性和有效性。 全局模型:跨酶家族的预测 全局模型在涵盖多种酶家族、类别和生物体的大型数据集上训练,理论上能够泛化到各种序列和反应。本节重点介绍几个代表性的全局模型及其演化历程。 表1:$k_{\mathrm{cat}}$预测ML模型的特征与性能对比 模型名称 发表年份 数据集规模 模型架构 酶序列表示 底物表示 其他特征 性能指标 kcat in E. coli 2018 215 随机森林 蛋白质结构、网络相互作用 - 生化性质、实验条件、反应通量 R² = 0.34 DLKcat 2022 16838 神经网络 n-gram (CNN) 分子图 (GNN) - R² = 0.44 TurNuP 2023 4271 梯度提升 pLM嵌入 (ProtT5-XL) 数值反应指纹 (ESP) 序列感知分割 R² = 0.44 (全体), R² = 0.33 (<40%相似度) UniKP 2023 - 神经网络 pLM嵌入 分子图 (GNN) 类别平衡重加权 R² = 0.68 DLTKcat 2023 - 神经网络 n-gram (CNN) 分子图 (GNN) 温度、双向注意力机制 R² = 0.66 PreTKcat 2023 - ExtraTrees集成 - - 温度 R² = 0.69 CataPro 2025 - - pLM嵌入 (ESM-2) - 序列感知分割 (40%阈值) PCC r = 0.48 DeepEnzyme 2024 - 神经网络 pLM嵌入 分子图 蛋白质结构特征 R² = 0.58 (全体), R² = 0.42 (<50%相似度) KcatNet 2024 - 神经网络 - - 注意力机制、结构特征 比UniKP提高18% CatPred 2025 23197 神经网络集成 pLM嵌入 (ESM-2) 预训练SMILES Transformer 概率回归、不确定性量化 R² = 0.68 注释: PCC:皮尔逊相关系数(Pearson Correlation Coefficient) 序列感知分割:训练集和测试集之间采用低序列相似度划分,以避免数据泄漏 概率回归:输出高斯分布(均值和方差)而非单一预测值,提供不确定性估计 部分模型未在原文提供完整的数据集规模信息,标记为”-“ $k_{\mathrm{cat}}$预测模型的演化 早期探索:Heckmann et al. (2018) 最早的大规模ML模型之一由Heckmann等人于2018年开发,使用随机森林预测大肠杆菌中各种酶反应的体外$k_{\mathrm{cat}}$值。训练数据包含172个$k_{\mathrm{cat}}$值,模型在独立测试集上达到R² = 0.34。最重要的特征是通过节约通量平衡分析计算的反应通量。然而,该模型的适用性有限,因为所需的输入特征(如反应通量、网络相互作用)仅对少数模式生物(如大肠杆菌、酿酒酵母、人类)可用。 突破性进展:DLKcat (2022) Li等人于2022年开发的DLKcat是一个生物体独立的深度学习模型,仅依赖于酶的氨基酸序列和底物结构。模型在16,838个数据点上训练,使用: n-gram CNN编码酶序列 图神经网络(GNN)编码底物分子图 DLKcat在随机测试集上达到R² = 0.44,预测的对数$k_{\mathrm{cat}}$值平均在实验值的1个数量级内。然而,该模型存在严重的数据泄漏问题:67.9%的测试集酶序列也出现在训练集中,90%与训练集序列相似度>99%。因此,DLKcat在与训练集序列相似度<60%的未见序列上表现很差,甚至出现负R²值。 解决数据泄漏:TurNuP (2023) Kroll等人在2023年开发的TurNuP通过序列感知数据分割解决了数据泄漏问题,确保训练集和测试集中的酶序列不相似(序列相似度阈值)。尽管训练数据较小(4,271个数据点),TurNuP结合: 数值反应指纹(ESP) pLM嵌入(ESM2) 在低序列相似度测试集上达到R² = 0.44,包括对序列相似度<40%的序列达到R² = 0.33。这证明了序列感知分割对于评估真实泛化能力的重要性。 处理数据不平衡:UniKP (2023) Yu等人在2023年开发的UniKP使用类别平衡重加权来改善对极端$k_{\mathrm{cat}}$值的预测。由于$k_{\mathrm{cat}}$分布呈现中间值密集、两端稀疏的特点,模型倾向于高估低值、低估高值。通过重加权策略降低中间范围的相对权重,UniKP在高$k_{\mathrm{cat}}$条目上的RMSE降低了6.5%,最终达到R² = 0.68。 纳入环境因素:EF-UniKP 和 DLTKcat (2023) 数据噪音的另一来源是不同的实验条件(温度、pH)。Yu等人开发了EF-UniKP,在包含温度或pH信息的较小数据集上重新训练UniKP,并使用两层框架: 基础层:UniKP预测 线性回归层:根据pH或温度调整预测 在严格测试集上(酶或底物不在训练集中),pH数据集达到R² = 0.44,温度数据集达到R² = 0.38。 几乎同时,Qiu和Zhao开发了DLTKcat,纳入了双向注意力块来描述底物原子和酶残基之间的相互作用,并将温度值添加到加权向量中。该模型达到R² = 0.66,但由于对低温(<20°C)和高温(>40°C)条目的过采样和随机数据分割,存在数据泄漏问题。 更稳健的温度依赖性$k_{\mathrm{cat}}$预测模型是PreTKcat(2023),使用ExtraTrees集成模型,在10折随机分割测试集上达到R² = 0.69,比UniKP提高了2.98%。 整合结构特征:DeepEnzyme 和 KcatNet (2024) 酶功能在很大程度上由其3D结构决定,但之前的模型很少考虑结构特征。Wang等人开发的DeepEnzyme除了蛋白质序列和底物结构外,还利用蛋白质结构特征(使用ColabFold预测所有缺少实验结构的酶)。模型达到R² = 0.58,在测试序列与训练序列相似度<50%时仍保持R² = 0.42。 KcatNet也纳入了注意力机制来捕获酶-底物相互作用,并使用结构特征,在同一数据集上比UniKP提高了18%。 不确定性量化:CatPred (2025) 所有前述模型都是确定性的,输出单一预测值。Boorla和Maranas在2025年开发的CatPred使用概率回归为$k_{\mathrm{cat}}$预测添加置信度指标,通过估计相关不确定性: 偶然不确定性(aleatoric):训练数据中的固有噪音 认知不确定性(epistemic):训练样本在某些潜在空间区域稀缺导致的不确定性 CatPred训练了10个模型的集成,输出$k_{\mathrm{cat}}$预测的高斯分布(均值和方差)。模型在保留测试集上达到R² = 0.61,在分布外测试集(序列相似度<99%)上达到R² = 0.39。约76%的预测值落在实验值的1个数量级内。 图3:改进ML酶动力学参数模型预测性能的策略 (a) 数据分割方法减轻数据泄漏:对比了数据泄漏易发生(Data-leakage prone)和数据泄漏抗性(Data-leakage resistant)两种分割方式。前者随机分割导致训练集和测试集中存在相同或高度相似的序列,后者通过控制序列相似度确保训练集和测试集分离(低序列相似度),如TurNuP使用序列感知分割。 (b) 通过重加权方案解决动力学参数分布的类别不平衡:动力学参数(如$k_{\mathrm{cat}}$)的分布呈钟形,中间值密集而两端稀疏。模型倾向于高估低$k_{\mathrm{cat}}$类别、低估高$k_{\mathrm{cat}}$类别。通过重加权,降低高频率类别的权重,提升低频率类别的重要性,使模型在极端值上的性能提升。 (c) 整合交互感知特征捕获酶与底物的依赖关系:简单拼接酶和底物的特征向量限制了模型捕获复杂交互的能力。通过注意力机制(Attention Block),模型可以学习酶残基与底物原子之间的相互作用权重,从而更准确地预测催化参数。 (d) 不确定性感知建模框架区分偶然和认知不确定性:CatPred等模型输出高斯分布而非单一预测值。模型通过集成学习区分两种不确定性:偶然不确定性(Aleatoric uncertainty)来自训练数据的固有噪音,认知不确定性(Epistemic uncertainty)来自模型在某些序列空间区域缺乏训练样本。通过估计这两种不确定性,模型可以量化预测的可靠性。 $K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$ 和 $K_{\mathrm{i}}$ 预测模型 $K_{\mathrm{m}}$预测 Kroll等人在2021年首次开发了大规模$K_{\mathrm{m}}$预测模型,在BRENDA测试集上达到R² = 0.53,在SABIO-RK独立测试集上达到R² = 0.49。模型对数据泄漏具有鲁棒性,当测试集中的底物或酶不在训练集中时,性能降至R² = 0.26。平均相对预测误差约为4.1倍。 后续模型如GraphKM、CatPred、MPEK、UniKP等在$K_{\mathrm{m}}$预测上也取得了类似或更好的性能(R² = 0.53-0.61)。 $k_{\mathrm{cat}}/K_{\mathrm{m}}$预测 由于$k_{\mathrm{cat}}/K_{\mathrm{m}}$代表催化效率,ML模型相对较少。Yu等人在UniKP中训练了$k_{\mathrm{cat}}/K_{\mathrm{m}}$模块,在910个数据点上达到R² = 0.65。他们还发现,简单地将单独的$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$预测相除表现很差(r = -0.02),因为这会累积两个模型的误差并忽略参数间的相关性。 Shen等人在2024年开发的EITLEM-Kinetics使用迁移学习来提高$k_{\mathrm{cat}}/K_{\mathrm{m}}$预测。他们迭代地根据$k_{\mathrm{cat}}/K_{\mathrm{m}}$模型重新调整$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$网络的权重参数,经过8次迭代后,$k_{\mathrm{cat}}/K_{\mathrm{m}}$模型的性能从0.61提高到0.83。 $K_{\mathrm{i}}$预测 相对较少的ML模型针对$K_{\mathrm{i}}$预测,大多数研究集中在半抑制浓度($\mathrm{IC}{50}$)和药物-靶标结合亲和力(DTBA)。CatPred、SAKPE、CPI-Pred和OmniESI包含了$K{\mathrm{i}}$模块,性能在R² = 0.36-0.54之间。 应用场景:从理论到实践 ML模型不仅仅是预测工具,它们已经在实际的酶工程和发现中展现出价值。 预测突变效应 酶的催化效率通常不能满足工业过程的要求,因此优化酶活性成为降低生产和运营成本的关键。突变对功能的影响不是加性的,因此模型预测多重突变对酶活性影响的能力是其理解残基-残基相互作用及其与目标动力学参数关系的直接指标。 DLKcat通过神经注意力机制评估氨基酸取代对$k_{\mathrm{cat}}$值的影响,在测试集的突变体上达到r = 0.78。然而,由于数据泄漏,当测试未见序列(但仍与训练序列相似度>99%)时,性能降至R² = -0.18。 更稳健的模型如DeepEnzyme预测高活性碱性磷酸酶突变体的中位$k_{\mathrm{cat}}$值比低活性突变体高15%。MPEK将突变数据分为野生型样、增强型和降低型$k_{\mathrm{cat}}$或$K_{\mathrm{m}}$类别,模型对所有类别和两个参数的预测PCC值在0.8-0.9之间。EITLEM-Kinetics在$k_{\mathrm{cat}}$数据集上对最多6个突变的预测达到R² = 0.85,对超过10倍增强$k_{\mathrm{cat}}$的突变体也达到R² = 0.66。 酶工程与挖掘 设计具有增强活性的突变酶是蛋白质工程和合成生物学的关键目标。然而,识别有效的进化路径需要对反应机制的深刻理解,并受到生物学和物理约束(如蛋白质折叠和表达)的限制。在实验室中进行定向进化成本高、耗时长,且往往只能带来边际改进。 酶挖掘案例:Zhou等人通过定向进化构建和筛选4,800个红球菌(Rhodotorula glutinis)酪氨酸氨裂解酶(TAL)突变体库,发现了一个$k_{\mathrm{cat}}$ = 142 $\mathrm{s}^{-1}$的变体,仅比野生型(114 $\mathrm{s}^{-1}$)略有改善。为了解决实验方法的有限成功,作者使用BLAST搜索识别了野生型序列的前1000个同源物,并使用UniKP预测它们的$k_{\mathrm{cat}}$值进行计算机酶挖掘。实验验证了前5个预测,其中2个序列的$k_{\mathrm{cat}}$值比野生型高约4倍。此外,UniKP还用于预测TAL所有可能的单点变体的$k_{\mathrm{cat}}/K_{\mathrm{m}}$值进行计算机酶进化,识别并实验表征了两个比野生型高效3.5倍的突变体。 类似地,KcatNet用于α-葡萄糖苷酶的计算机进化,筛选所有单点突变体,最高预测显示$k_{\mathrm{cat}}$比野生型提高了47%。CataPro在类胡萝卜素裂解双加氧酶的酶挖掘中,识别了1500个同源物,实验验证了顶部预测Sphingobium sp. CSO(SsCSO)比起始酶CSO2活性高19.53倍。通过两轮计算机定向进化,识别了一个双点突变体,比CSO2活性高65倍。 从头酶设计:虽然上述模型主要用于预测现有序列或突变体的动力学参数,它们并不专门用于建议提高酶活性的突变。Yu等人在2024年解决了这一限制,构建了一个扩散模型kcatDiffuser,将优化活性的目标表述为逆折叠任务结合回归器引导的扩散模型。kcatDiffuser生成与给定骨架结构兼容的多个酶序列,同时被采样过程引导,偏好导致更高$k_{\mathrm{cat}}$值的氨基酸组合。模型在log $k_{\mathrm{cat}}$上的总体改进为0.21,例如将十异戊二烯焦磷酸合成酶的log $k_{\mathrm{cat}}$提高了0.486。 基因组尺度代谢建模 基因组尺度代谢模型(GEMs)是生物体内完整代谢反应集合的数学表示,从注释的基因组序列重建而来。它们在不同条件下模拟代谢通量、指导代谢工程和研究蛋白质组分配方面具有优势。通常,GEMs基于反应网络和质量平衡原理的化学计量约束来估计可行的反应通量。然而,它们的准确性受到一个关键假设的限制:酶被视为无限快速的催化剂或酶以过量存在。 为了解决这一问题,酶约束的基因组尺度代谢模型(ecGEMs)整合了酶容量约束,最常见的是通过$k_{\mathrm{cat}}$值和酶丰度,从而将可达到的最大通量与催化反应的酶的催化效率联系起来。尽管有前景,但ecGEMs仍然受到不完整或嘈杂的动力学数据的阻碍,因为许多酶缺乏实验测量的$k_{\mathrm{cat}}$值。此外,可用数据通常来自不同的生物体、实验条件和底物,增加了额外的不确定性。虽然已经为几个研究良好的生物体(如大肠杆菌)开发了ecGEMs,但BRENDA中只有约10%的酶促反应具有完全匹配的$k_{\mathrm{cat}}$值。 减轻动力学数据瓶颈的一种方法是使用ML模型预测的$k_{\mathrm{cat}}$来扩展基因组尺度重建的覆盖范围。Heckmann等人的模型旨在参数化大肠杆菌iML1515的GEMs,整合ML衍生的$k_{\mathrm{cat}}$值而不是从可用数据集中值插补,导致模型的RMSE大幅降低了34%。类似地,DLKcat被用于重建343个酵母/真菌物种的ecGEMs,预测了约300万个酶-底物对的$k_{\mathrm{cat}}$值。为了解决体外预测与体内值之间的差异,作者采用了贝叶斯基因组尺度建模方法,其中DLKcat预测作为先验$k_{\mathrm{cat}}$分布的均值,模型的RMSE作为方差。然后,这些值根据实验测量的表型数据迭代更新以产生后验分布。总体而言,基于DLKcat的ecGEM的RMSE比原始ecGEM低30%。KcatNet在同一ecGEM上的参数化在22种碳源和氧气条件下的16个条件中有16个优于DLKcat。 此外,DLTKcat被用于演示ML模型如何用于温度敏感的代谢建模。作者表明,DLTKcat预测了Lactococcus lactis MG1363中分解代谢活性随温度升高而降低,这与实验观察一致。 局部模型:针对特定酶家族的精细预测 虽然全局模型旨在跨多种酶家族泛化,但局部模型专注于更窄的序列空间,聚焦于单个酶及其变体或一组密切相关的酶家族。通过利用这一受限域中的高质量数据,局部模型有潜力捕获细粒度的相互作用,尽管以泛化能力为代价。 早期尝试:β-葡萄糖苷酶 Yan等人在2012年开发了最早的酶家族特异性模型之一,旨在预测β-葡萄糖苷酶对其天然底物纤维二糖的$K_{\mathrm{m}}$。模型使用前馈反向传播神经网络,以氨基酸概率分布和11种AAIndex性质作为输入。网络在24个β-葡萄糖苷酶序列上训练,在另外12个序列上测试,达到R² = 0.67。然而,该模型由于数据规模极小而存在过拟合问题。 在2016年,Carlin等人在来自Paenibacillus polymyxa的β-葡萄糖苷酶的100个突变体上训练了一个弹性网回归器集成。集成方法比单个回归器更稳健,PCC从0.57提高到0.76($k_{\mathrm{cat}}/K_{\mathrm{m}}$)、从0.43提高到0.6($k_{\mathrm{cat}}$)、从0.29提高到0.71(1/$K_{\mathrm{m}}$)。 覆盖更广的局部模型 Li等人在2023年构建了DeepGH,一个用于糖苷水解酶催化活性的深度学习平台。DeepGH在从CAZy数据库检索的64,057个序列上训练,跨越119个糖苷水解酶家族,训练集和测试集之间的序列相似度最多为65%以避免数据泄漏。模型被应用于壳聚糖酶CHIS1754,识别了9个残基作为突变的目标位点。实验验证表明,9个单点突变体中的8个比野生型更活跃。他们还创建了CHIS1754-MUT7变体,包括DeepGH建议的9个突变中的7个,其$k_{\mathrm{cat}}/K_{\mathrm{m}}$比野生型高24倍。 Muir等人在2024年为腺苷酸激酶(ADK)创建了一个模型。利用高通量微流控平台,他们测量了193个ADK直系同源物的$k_{\mathrm{cat}}$、$K_{\mathrm{m}}$和$k_{\mathrm{cat}}/K_{\mathrm{m}}$,并证明ADK功能景观是崎岖且多峰的。他们将约5000个ADK序列输入ESM-2,观察到输出可以按LID域类型聚类。利用pLM捕获高级结构组织的能力,作者在ADK序列的ESM-2嵌入上训练了一个随机森林回归器。该模型在$k_{\mathrm{cat}}$上达到Spearman相关系数r = 0.44,而DLKcat在同一测试集上仅为r = -0.09。尽管使用的序列更少,这个局部模型优于在大型数据集上训练的深度学习模型,突显了在相对狭窄的序列空间内进行高质量动力学测量对于构建稳健的家族特异性预测器的价值。 全局 vs 局部:权衡与互补 全局模型和局部模型代表了序列空间探索的两种不同视角: 全局模型覆盖广泛且多样的酶家族和类别,能够跨距离相关的酶泛化,但在高度不相似于训练数据的序列上准确性有限 局部模型专注于特定家族或单个酶及其变体,能够捕获细微的序列-功能或结构-功能关系,但预测能力局限于狭窄的序列空间区域 一个有前景的方向是开发混合模型,利用全局蛋白质语言模型进行序列空间的广泛上下文描述,同时在家族特异性动力学数据集上进行微调以保留局部信息。 挑战与未来方向 尽管ML模型在酶动力学参数预测方面取得了显著进展,但仍面临诸多挑战,需要社区共同努力克服。 数据稀缺与不平衡 数据分布不均:BRENDA中的大多数$k_{\mathrm{cat}}$和$K_{\mathrm{m}}$值属于水解酶、氧化还原酶和转移酶对其天然底物的小子集。因此,大多数ML模型在这些家族上表现出强劲性能,但在代表性不足的酶家族和非天然底物上泛化能力较差。此外,收集文献中发表的动力学数据固有地偏向于具有中间值的参数,导致对无效或极高效酶的数据稀缺。 高通量数据生成:为了规避这一问题,可以通过自动化实验(如生物铸造厂和微流控平台)获得大量均匀分布的高质量数据。生物铸造厂提供了一个自驱动的实验室,代理设计酶并将其部署到合成、表达和动力学测量的表征单元中。微流控平台可以通过小型化和多重化反应,允许对数千个酶-底物组合进行并行测量动力学参数。这些方法有潜力生成大型、高质量的动力学数据,覆盖研究良好和代表性不足的酶类,从而为ML模型的性能和泛化做出贡献。这些自动化方法还为实际的设计-构建-测试-学习(DBTL)循环提供了现实途径。 全局 vs 局部模型的权衡 从本综述讨论的所有模型来看,大多数ML方法探索的是序列空间的全局或局部视图。这种区别反映了搜索的范围: 全局模型旨在覆盖广泛且多样的酶家族和类别 局部模型将其焦点限制在特定家族 全局模型在多样酶家族上训练,跨广泛的序列区域泛化。然而,当预测与训练数据高度不相似的序列参数时,它们通常精度较低。相反,局部模型在野生型或突变体的高质量数据集上训练,可以捕获细微的序列-功能关系。然而,它们的预测能力局限于狭窄的序列空间区域。因此,一个有前景的方向是开发混合模型,利用全局蛋白质语言模型进行序列空间的广泛上下文描述,同时在家族特异性动力学数据上进行微调以保留局部信息。 半监督学习 当前用于动力学参数预测的ML模型几乎完全依赖于监督学习,这需要大量标记数据进行训练。鉴于上述讨论的限制,半监督学习提供了一个有前景的替代方案,通过利用有限数量的标记动力学数据和大量未标记的酶序列(如UniProt中的)来训练模型。通过利用序列空间中的功能模式以及有限数量的标记示例,半监督框架可以扩展模型的适用性并提高对数据稀缺的鲁棒性。 图4:当前数据集和模型类型的局限性及半监督学习的应用前景 (a) BRENDA中酶类别的数据不平衡:饼图展示了BRENDA数据库中不同酶类别(EC分类)的$k_{\mathrm{cat}}$数据分布。图中可以看出,水解酶(Hydrolases,蓝色)、氧化还原酶(Oxidoreductases,橙色)和转移酶(Transferases,绿色)占据了绝大部分数据,而其他酶类(如裂解酶Lyases、异构酶Isomerases、连接酶Ligases等)的数据相对稀少,这种不均衡分布导致ML模型在代表性不足的酶家族上泛化能力较差。 (b) BRENDA中$k_{\mathrm{cat}}$值的分布偏差:直方图显示了$k_{\mathrm{cat}}$值(以$\log_{10}$形式,单位$\mathrm{s}^{-1}$)的分布呈现钟形曲线,集中在中等活性范围(约-1到3之间),而极低活性(<0.01 $\mathrm{s}^{-1}$)和极高活性(>1000 $\mathrm{s}^{-1}$)的酶数据极为稀缺。这种偏向于中间值的固有偏差源于文献报道倾向,使得ML模型难以准确预测极端情况下的动力学参数。 (c) 全局模型与局部模型在功能景观探索中的互补性:该示意图用不同颜色的山峰代表不同的酶家族功能景观。全局模型(Global models)能够跨越多个酶家族(不同颜色区域)进行广泛导航和预测,但在每个特定家族的局部序列空间内精度有限(山峰内部分辨率较低)。相反,局部模型(Local models)专注于单一功能景观(单个山峰),能够提供该家族内序列-功能关系的精细信息,但无法扩展到其他酶序列空间。理想的策略是开发混合模型,结合两者优势。 (d) 半监督学习框架示意图:该子图展示了如何利用少量标记的酶动力学数据(Labeled enzyme data,左侧彩色点)和大量未标记的酶序列数据(Unlabeled enzyme data,右侧灰色点,如来自UniProt数据库的数百万序列)共同训练模型。通过半监督学习方法,模型可以从未标记数据中学习序列空间的功能模式,并利用有限的标记样本进行指导,从而在数据稀缺情况下提高预测性能和泛化能力。 物理基础的机器学习 酶动力学预测的另一个有前景的方向在于物理基础的ML。与本综述讨论的纯数据驱动方法不同,物理基础的ML将生物物理约束嵌入到学习过程中,以确保预测与酶催化原理保持一致。例如,激活自由能与$k_{\mathrm{cat}}$之间的关系可以作为约束在模型训练期间纳入。这可以通过使用惩罚项来正则化神经网络来完成,这些惩罚项强制执行与过渡态理论的一致性,要求$k_{\mathrm{cat}}$预测落在激活能的可行范围内。此外,将深度学习模型与量子力学/分子力学(QM/MM)描述符耦合可以帮助捕获控制酶动力学的分子机制。 最近的发展是出现了生成框架,明确纳入生物物理约束以确保预测的动力学参数的机制合理性。Choudhury等人在2022年的工作中引入了一个条件生成对抗网络,纳入生物物理和物理化学约束以创建生物学相关的动力学模型,满足热力学要求、稳定性约束和实验观察的时间尺度限制。他们在2024年的工作将化学计量、调控信息、通量分析和动态时间尺度约束整合到生成过程中,允许估计缺失的动力学参数。 关键结论与批判性总结 潜在影响 加速酶发现与工程:ML模型能够在几秒钟内预测数百万个酶-底物对的动力学参数,相比传统实验方法(每个测量可能需要数天至数周)大幅缩短了时间。这使得大规模的酶挖掘和虚拟筛选成为可能,有助于快速识别高活性候选酶 降低实验成本:通过计算机预测,研究人员可以优先实验验证最有希望的候选序列或突变体,减少盲目筛选的实验次数,从而降低试剂、人力和时间成本 推动合成生物学和代谢工程:准确的动力学参数预测能够改善基因组尺度代谢模型的质量,使其更好地预测细胞行为和代谢通量,指导代谢途径的优化和设计,促进生物制造和绿色化学的发展 促进个性化医学和药物发现:$K_{\mathrm{i}}$预测模型可以用于快速筛选潜在的酶抑制剂,加速药物发现过程,特别是在靶向治疗和精准医疗领域 局限性 数据质量和覆盖面不足:现有公共数据库中的动力学参数数据有限、分布不均且质量参差不齐,许多酶类和非天然底物缺乏数据,限制了模型的训练和泛化能力。此外,数据多来自体外实验,与体内条件存在差异 模型泛化能力有限:尽管全局模型在多种酶家族上训练,但在与训练集高度不相似的序列或低代表性酶家族上预测性能显著下降。局部模型虽然在特定家族上精度更高,但不能跨家族应用 缺乏物理约束:大多数现有模型是纯数据驱动的,缺乏对酶催化基本物理化学原理的明确整合,可能导致预测结果违反热力学定律或生物学合理性 不确定性量化不足:多数模型输出单一预测值,缺乏对预测可靠性的量化,限制了其在实际决策中的应用。虽然CatPred等模型引入了概率回归和不确定性估计,但尚未成为主流 实验验证的挑战:即使模型预测出有希望的候选酶或突变体,实验验证仍然需要大量时间和资源。此外,模型的预测往往只能提供相对趋势(哪个更好),而非精确的数量级,这在某些应用中可能不够 未来研究方向 高通量实验技术的发展:利用生物铸造厂、微流控平台和自动化实验系统生成大规模、高质量、均衡分布的动力学参数数据,覆盖更多酶类和底物,为ML模型提供更好的训练数据 半监督和主动学习:开发能够利用大量未标记酶序列数据的半监督学习框架,以及通过主动学习策略优先实验验证最具信息价值的样本,提高数据利用效率 混合模型架构:结合全局蛋白质语言模型的广度和家族特异性微调的精度,开发能够在保持泛化能力的同时提供高精度预测的混合模型 物理约束的整合:将过渡态理论、热力学定律、QM/MM计算等物理化学原理嵌入ML模型,确保预测结果的生物学合理性和机制可解释性 闭环自动化系统:构建完整的设计-构建-测试-学习循环,将ML预测、自动化合成、高通量表征和模型更新紧密结合,实现真正的自驱动酶工程 多任务和迁移学习:开发能够同时预测多个动力学参数($k_{\mathrm{cat}}$、$K_{\mathrm{m}}$、$k_{\mathrm{cat}}/K_{\mathrm{m}}$、$K_{\mathrm{i}}$)并捕获它们之间内在关系的多任务学习模型,以及能够从数据丰富的酶家族迁移知识到数据稀缺家族的迁移学习方法 体内动力学数据的积累:开发和应用体内动力学测量技术,积累更多反映真实生理条件的数据,缩小体外预测与体内应用之间的鸿沟 总体而言,机器学习为酶动力学参数预测开辟了新的途径,但要实现其在酶工程和发现中的全部潜力,仍需在数据质量、模型架构、物理约束整合和实验验证等多个方面持续努力。
Specific Sytems
· 2025-12-22
【综述】计算酶学全景:QM/MM方法揭示催化机制、蛋白质动力学与变构调控,指导从头酶设计与共价药物开发
【综述】计算酶学全景:QM/MM方法揭示催化机制、蛋白质动力学与变构调控,指导从头酶设计与共价药物开发 本文信息 标题:Perspectives on Computational Enzyme Modeling:From Mechanisms to Design and Drug Development 作者:Kwangho Nam, Yihan Shao, Dan T. Major, Magnus Wolf-Watz 发表时间:2024年2月8日 单位: 美国德克萨斯大学阿灵顿分校化学与生物化学系 美国俄克拉荷马大学化学与生物化学系 以色列巴伊兰大学化学系与纳米技术和先进材料研究所 瑞典于默奥大学化学系 引用格式:Nam, K.; Shao, Y.; Major, D. T.; Wolf-Watz, M. Perspectives on Computational Enzyme Modeling: From Mechanisms to Design and Drug Development. ACS Omega 2024, 9, 7393−7412. https://doi.org/10.1021/acsomega.3c09084 摘要 理解酶的催化机制对于揭示生命复杂的分子机器至关重要。本综述系统梳理了计算酶学领域的核心原理、面临的挑战及最新进展。多年来,计算机模拟已成为研究酶机制不可或缺的工具,实验与计算相结合的整合策略已成为深入理解酶催化的标准范式。大量研究证明,计算模拟在表征反应路径、过渡态、底物选择性、产物分布及动态构象变化方面具有强大能力。然而,在研究复杂多步反应、大尺度构象变化和变构调控等方面仍存在重大挑战。除机制研究外,计算酶建模已成为计算机辅助酶设计和共价药物理性开发的核心工具。总体而言,酶设计/工程和共价药物开发将极大受益于计算研究所揭示的酶的详细机制,如蛋白质动力学、熵贡献和变构效应等。这种不同研究方法的融合将持续推动酶研究领域的协同发展。 核心结论 mindmap root(计算酶学核心进展) **实验-计算整合** 相互反馈 认知闭环 **催化机制多样性** **过渡态稳定化** **反应物去稳定化** **耦合动力学** 化学控制 **量子隧穿** **变构调控** **蛋白质动力学** 快速振动<br/>皮秒-纳秒 慢速构象<br/>微秒-毫秒 **计算方法成熟** **QM/MM方法** **增强采样** **自由能计算** **酶设计挑战** 活性远低天然酶 需纳入动力学 需纳入熵效应 需纳入变构 **机器学习融合** 结构预测 活性预测 定向进化加速 **共价药物设计** 弹头反应性平衡 精确定位 可逆性调控 背景 酶作为生物催化剂,能够将反应速率提升百万倍以上,同时表现出极高的底物选择性,并通过多种机制实现精准调控。这种卓越的催化能力源于酶在漫长进化过程中对化学反应和蛋白质动力学的精细优化。理解酶的催化机制不仅是基础生物化学的核心问题,更是生物技术和医药研发的关键基础。 传统上,酶催化理论主要基于Pauling在1946年提出的过渡态稳定化概念:酶通过优化活性位点与过渡态的相互作用来降低反应能垒。然而,近几十年的研究表明,酶催化是一个多维度、多层次的复杂过程,涉及多种协同作用的机制。 随着计算能力的飞速提升和理论方法的不断完善,计算酶学(computational enzymology)已从早期的简单模型发展为能够精确描述酶催化全过程的系统性研究范式。当前,计算模拟不仅能够揭示化学反应的原子级细节,还能探索蛋白质在多个时间尺度上的动力学行为、变构调控网络,甚至指导全新酶的从头设计和共价药物的理性开发。 关键科学问题 机制复杂性:如何系统性地理解酶催化中多种机制(静电作用、动力学、熵效应、变构等)的协同作用? 多尺度挑战:如何在合理的计算成本下准确模拟从电子转移(飞秒)到构象变化(毫秒)跨越多个时间尺度的酶功能过程? 构象子态:酶存在多个相似构象状态,每个状态具有不同的催化活性,如何全面表征这些子态及其对整体催化速率的贡献? 变构调控:如何理解远离活性位点的结构改变或配体结合如何通过构象驱动或熵驱动机制远程调控催化活性? 理性设计:如何将机制洞察转化为设计原则,创造具有天然酶活性水平的人工酶或开发高选择性的共价抑制剂? 实验整合:如何建立计算与实验(动力学、NMR、X射线、冷冻电镜、单分子等)的有机融合框架,形成相互验证和互补的研究闭环? 研究内容 图1:计算酶学研究的主题图谱 本综述涵盖的核心主题及其相互关系,中心为计算酶学,周围六大模块展示了该领域的主要研究方向,外围标注了实验与计算间的双向反馈机制。 1. 建模复杂酶催化机制的方法学基础 核心计算方法 量子力学/分子力学方法(QM/MM)是当前研究酶催化机制的标准工具。该方法将体系划分为两个区域: QM区:包含发生化学键断裂/形成的活性位点,用量子化学方法(DFT、半经验、从头算)处理 MM区:包含蛋白质主体和溶剂环境,用分子力场描述 这种分层策略在保持化学精度的同时大幅降低了计算成本,使得含数万原子的酶体系模拟成为可能。 自由能计算技术是获得催化反应能垒的关键: 伞形采样 + WHAM/MBAR分析(Umbrella Sampling):沿反应坐标施加偏置势,后处理获得自由能曲线 元动力学(Metadynamics):通过在已访问区域添加排斥势(高斯型偏置势)驱动体系探索罕见事件 弦方法(String Methods):优化连接反应物和产物的最小自由能路径 变分自由能微扰和DHAM(vFEP):结合多个哈密顿量的信息提高采样效率 过渡态理论(TST)用于从自由能垒计算反应速率: \[k = \frac{k_B T}{h} e^{-\Delta G^{\ddagger}/RT}\] 其中,$\Delta G^{\ddagger}$ 是自由能垒,$k_B$ 是玻尔兹曼常数,$h$ 是普朗克常数。 多步反应的挑战 实验测得的 $k_{\text{cat}}$ 是集体速率常数,无法直接对应单一微观步骤。对于多步反应: \[E + S \rightleftharpoons ES \rightarrow E\text{-}TS_1 \rightarrow EI \rightarrow E\text{-}TS_2 \rightarrow EP \rightarrow E + P\] 需要计算每个步骤的能垒,才能确定速率决定步骤(rate-determining step)。然而,计算成本随反应复杂度急剧增加,且需要准确描述中间体的质子化状态、水分子的进出及构象重排等。 graph TB subgraph E["**实验技术**"] direction TB A[**酶动力学实验**<br/>宏观速率常数] B[**NMR弛豫色散**<br/>构象动力学] C[**X射线/冷冻电镜**<br/>高分辨结构] D[**时间分辨光谱**<br/>中间体化学态] E1[**单分子测量**<br/>构象异质性] end subgraph CS["**计算模拟**"] direction TB F[原子级机制假设] G[定点突变预测] H[同位素效应计算] end E --提供数据--> CS CS --验证假设--> E style E fill:#e1f5ff style C fill:#fff4e1 实验-计算整合形成假设-验证-修正的迭代循环,两者相互反馈、互补验证。 图2:酶催化中蛋白质运动的层级结构 (A) 自由能景观:展示蛋白质在不同时间尺度上的运动层级。反应物态A包含多个构象子态(绿色),通过快速子态交换(皮秒-纳秒)和慢速催化反应(微秒-毫秒)转化为产物态B (B) 三维自由能表面:从构象子态的角度理解酶催化。不同构象状态(z坐标)具有不同的催化能垒 $\Delta G^{\ddagger}(z)$,总体催化速率为各子态速率的群体加权和:$k_{\text{cat}} = \sum \rho_i k_{\text{micro},i}$ 2. 功能性蛋白质运动的层级结构 酶的动力学行为跨越从飞秒到秒的巨大时间尺度,不同尺度的运动对催化具有不同的功能意义。 快速运动(皮秒-纳秒) 键振动和弯曲:碳-氢键伸缩(~10 fs)、角度振动(~100 fs) 活性位点侧链重排:催化残基的微调优化过渡态几何 贡献机制: 熵效应:限制性振动模式的冻结降低熵,有利于过渡态稳定 几何优化:快速调整使反应中心达到近攻击构象(NAC) 量子隧穿:氢原子/质子转移中的隧穿概率受振动模式调控 计算方法:标准分子动力学模拟(MD)即可探索纳秒时间尺度,从轨迹中提取振动频率、相关函数和构象分布。 慢速运动(微秒-毫秒) 大尺度集体运动:结构域开合、loop环移动、螺旋重排 功能意义: 配体结合/释放:开放构象允许底物进入,闭合构象形成催化活性构象 变构激活:远程位点的信号通过构象传播影响活性位点 构象子态交换:在多个相似构象间转换,每个子态具有不同活性 计算挑战:直接MD模拟难以达到毫秒尺度,需要增强采样技术: 长时程MD:利用GPU加速或专用硬件(Anton)达到微秒-毫秒 弦方法:直接优化连接两个构象态的最小自由能路径 元动力学:通过集体变量(如RMSD、接触数、扭转角)加速采样 马尔可夫状态模型(MSM):从大量短轨迹中构建状态转移概率矩阵 特殊挑战:质子化状态变化 许多构象变化伴随质子化状态改变(如组氨酸的质子化/去质子化),需要恒pH分子动力学方法(constant-pH MD),在模拟过程中动态调整残基质子化状态。 配体结合机制模型 诱导契合模型(Induced-Fit): 酶首先以开放构象结合底物 底物结合诱导酶向闭合构象转变 形成催化活性的ES复合物 构象选择模型(Conformational Selection): 酶在平衡态下存在开放/闭合构象预平衡 底物选择性结合到合适的构象(通常是闭合态) 结合使平衡向该构象偏移 真实情况:大多数酶表现出更复杂的行为,结合了两种机制。例如,腺苷酸激酶(adenylate kinase)的开合速率在游离酶和结合态酶中不同,表明存在构象耦合。 3. 构象子态及其对催化的影响 构象子态的概念 酶并非存在于单一的刚性结构,而是处于多个相似构象的动态平衡中(图2B)。这些构象子态在结构上微小差异(通常RMSD < 2 Å),但在催化活性上可能显著不同。 实验证据:单分子酶学研究(如β-半乳糖苷酶)观察到连续催化事件之间的等待时间存在很大变异性,这种变化不能仅用底物扩散解释,而是表明酶在不同构象子态间跳跃,每个子态有不同的催化速率。 群体加权速率模型 总体催化速率是各构象子态速率的群体加权平均: \[k_{\text{cat}} = \sum_{i} \rho_i k_{\text{micro},i}\] 其中: $\rho_i$ 是构象子态 $i$ 的群体占比($\sum \rho_i = 1$) $k_{\text{micro},i}$ 是子态 $i$ 的微观催化速率 这意味着: 即使单个子态活性低,如果群体占比高仍可贡献显著的整体速率 突变或配体结合可通过改变子态分布 $\rho_i$ 或改变单个子态活性 $k_{\text{micro},i}$ 来调控整体催化 铰链运动与几何调控 铰链运动(hinge motions)是指结构域间通过铰链区域连接处的开合运动(如腺苷酸激酶的两个结构域)。这种低频运动可以调节反应中心几何,影响: 底物与催化残基的相对取向(最优 ↔ 次优) 过渡态的几何优化程度 亲核进攻角度和距离 QM/MM模拟策略:在反应坐标模拟中加入构象坐标约束,系统探索不同构象子态下的催化能垒 $\Delta G^{\ddagger}(z)$,直接揭示构象-活性关系。 4. 变构调控的双重机制 变构效应(allostery)是指远离活性位点的扰动(如配体结合、翻译后修饰)通过长程通讯改变酶活性的现象。变构调控可通过两种非互斥的机制实现。 图3:胰岛素样生长因子1受体激酶(IGF-1RK)的变构调控机制 以蛋白激酶为例展示两种变构机制的共存: (A) 构象驱动变构:激活环(A-loop)磷酸化使构象平衡从非活性态(蓝线)向活性态(红线)偏移约9.2 kcal/mol,限制了非活性构象的访问 (B) 底物结合亲和力变化:磷酸化降低了底物ATP结合的自由能垒(12.9 → 7.8 kcal/mol),增强结合亲和力 (C) 动力学驱动变构:磷酸化通过改变蛋白质协同运动降低磷酰基转移反应的能垒(2.4 → 2.1 kcal/mol),尽管结构变化微小 graph TB subgraph Conf["**构象驱动变构**<br/>Conformationally-Driven"] direction TB A1[显著结构变化<br/>二级结构重排<br/>结构域移动] A2[X射线可观察<br/>两种明确状态] A3[结构传播网络] M1[**马尔可夫状态模型MSM**<br/>识别中间态] M2[**元动力学**<br/>加速构象采样] M3[**弦方法**<br/>最小自由能路径] C1[案例:激酶A-loop磷酸化<br/>非活性态自由能升高9 kcal/mol<br/>活性态占比 1%→99%<br/>活性增强数百倍] A1 --> M1 A2 --> M2 A3 --> M3 M1 --> C1 M2 --> C1 M3 --> C1 end subgraph Ent["**熵驱动变构**<br/>Entropically-Driven"] direction TB B1[结构变化极小<br/>RMSD小于1Å<br/>X射线结构相同] B2[动力学变化<br/>协同运动改变] B3[运动关联性<br/>相关/反相关] N1[**协方差分析**<br/>位置相关矩阵] N2[**网络模型**<br/>节点-边分析] N3[**简正模态分析NMA**<br/>低频振动模式] N4[**机器学习**<br/>预测变构位点] D1[案例:激酶动力学变化<br/>协同运动增强<br/>能垒降低0.3 kcal/mol<br/>速率提升1.6倍] B1 --> N1 B2 --> N2 B3 --> N3 B3 --> N4 N1 --> D1 N2 --> D1 N3 --> D1 end style Conf fill:#e1f5ff style Ent fill:#fff4e1 两种机制的协同 IGF-1RK案例展示了两种机制如何在同一蛋白质中共存: 构象变构:改变构象平衡(9.2 kcal/mol)→ 最大效应 底物结合:增强ATP亲和力(5.1 kcal/mol)→ 中等效应 动力学变构:降低化学反应能垒(0.3 kcal/mol)→ 微调效应 总效应是三者的协同组合,实现精密的多层级调控。 变构效应的远程传递 F1-ATPase 是变构长程通讯的经典例子: 三个活性位点相距 >50 Å 表现出负协同性:一个位点结合ATP抑制其他位点 通过360°旋转运动实现三个位点的循环激活 5. 从头酶设计与定向进化 计算酶建模已从理解天然酶转向创造全新催化剂。从头酶设计(de novo enzyme design)旨在为非天然反应设计具有天然酶活性的人工酶。 设计流程 graph TB subgraph T["1.**理论酶设计 Theozyme**"] direction LR A1[选择目标反应<br/>设计**过渡态**结构] --> A2[确定稳定过渡态<br/>关键残基<br/>氢键、电荷、疏水] A2 --> A3[创建**理论酶**<br/>最小化侧链集合] end subgraph S["2.**支架选择与优化**"] direction LR B1[筛选蛋白质骨架<br/>容纳理论酶] --> B2[**Rosetta**序列优化<br/>活性位点匹配] B2 --> B3[优化周围残基<br/>稳定结构<br/>提高溶解度] end subgraph D["3.**实验表征与进化**"] direction LR C1[基因合成<br/>大肠杆菌表达] --> C2[测定初始活性<br/>通常极低] C2 --> C3[**定向进化**<br/>饱和突变<br/>易错PCR<br/>DNA改组] C3 --> C4[活性提升<br/>数百到数千倍] end T --> S --> D style T fill:#e1f5ff style S fill:#fff4e1 style D fill:#d4edda 成功案例 已成功设计的酶包括: Kemp消除酶:催化非天然的Kemp消除反应 逆醛缩酶:催化逆向的醛缩反应 Diels-Alderase:催化Diels-Alder环加成反应 酯酶和荧光素酶变体:改造自然酶实现新功能 PET水解酶:分解聚对苯二甲酸乙二醇酯塑料 设计挑战与差距 尽管取得重要进展,设计酶的活性仍比天然酶低10³-10⁶倍。主要原因包括: mindmap root(设计酶活性差距) **静态设计范式局限** 仅优化过渡态<br/>的几何匹配 忽略**反应物去稳定化**<br/>这一重要机制 忽略蛋白质动力学<br/>与催化的**耦合** **蛋白质动力学缺失** 假设骨架是刚性的 忽略快速振动模式<br/>对催化的贡献 忽略构象涨落<br/>和子态分布 未考虑群体加权<br/>速率模型 **熵焓补偿未优化** 过度优化焓的贡献 忽略构象熵的惩罚 导致活性位点<br/>过于刚性 **缺乏变构调控** 没有设计**变构**<br/>调控位点 缺乏天然酶的<br/>内建调控网络 **催化机制单一** 仅依赖酸碱催化 缺乏多种机制的<br/>协同整合 机器学习辅助设计 mindmap root(机器学习辅助酶设计) **结构预测** **AlphaFold2<br/>和RoseTTAFold2**<br/>高精度预测蛋白质<br/>三维结构 蛋白质生成模型<br/>如**RFdiffusion**扩散模型<br/>生成满足功能约束的骨架 **活性预测** 回归模型<br/>从序列或结构特征<br/>预测酶活性 神经网络<br/>学习序列到功能<br/>的映射关系 **图神经网络GNN**<br/>直接在蛋白质<br/>图结构上学习 **定向进化加速** **主动学习**策略<br/>每轮实验后更新模型<br/>智能选择下一批突变体 适应性景观预测<br/>学习序列空间中的<br/>适应度分布 零样本预测<br/>在未实验测量区域<br/>预测活性 **祖先序列重建ASR** 重建古代酶序列<br/>研究进化如何优化功能 揭示现代酶的<br/>设计原则和优化策略 指导现代酶的<br/>理性改造方向 6. 共价药物设计的计算策略 共价抑制剂通过与靶酶形成共价键实现长效抑制,近年来在药物开发中复兴,成功案例包括: Remdesivir 和 Nirmatrelvir(Paxlovid):COVID-19治疗药物 Sotorasib:首个获批的KRAS G12C共价抑制剂 图4:共价药物的双步结合机制 (A) 自由能图:共价配体结合分为两步。第一步是非共价结合(自由能垒 $\Delta G_b^{\ddagger}$),第二步是共价键形成(自由能垒 $\Delta G_c^{\ddagger}$)。关键是平衡弹头反应性:$\Delta G_c^{\ddagger}$ 必须足够低以发生反应,但不能过低导致非特异性结合 (B) SARS-CoV-2主蛋白酶(Mpro)与N3抑制剂的复合物结构(PDB: 7BQY)。深青色显示催化二联体Cys145-His41,黄色是结合的N3配体,粉色是水分子,灰色是蛋白质表面。共价药物设计需要确保弹头(如Michael受体)正确定位于亲核残基(Cys145)附近 共价结合的双步机制 类似于Michaelis-Menten机制,共价抑制剂结合分为两步: \[E + \text{药物} \xrightarrow{\Delta G_b^{\ddagger}} E:\text{药物(非共价)} \xrightarrow{\Delta G_c^{\ddagger}} E\text{-药物(共价)}\] 第一步:非共价结合 由氢键、疏水作用、静电相互作用驱动 能垒 $\Delta G_b^{\ddagger}$ 决定初始识别和结合亲和力 第二步:共价键形成 弹头基团(warhead)与靶残基(通常是半胱氨酸)反应 能垒 $\Delta G_c^{\ddagger}$ 决定反应速率和可逆性 设计关键考量 mindmap root(共价药物设计要点) **弹头反应性平衡**<br/>Warhead Reactivity 反应性过低<br/>无法在合理时间内<br/>形成共价键 反应性过高<br/>导致非特异性反应<br/>和脱靶毒性 **最佳策略**<br/>使用弱亲电试剂<br/>如Michael受体、丙烯酰胺 **弹头精确定位**<br/>Positioning 必须将弹头定位到<br/>靶残基附近,小于5Å 反应角度和取向<br/>对能垒影响显著 优化连接臂linker<br/>的长度和柔性 **靶残基可及性**<br/>Target Accessibility **半胱氨酸**是最常见靶点<br/>pKa约8.5易去质子化 其他亲核残基<br/>丝氨酸、赖氨酸、酪氨酸 需评估残基暴露度<br/>和局部氢键网络 **可逆性与持久性**<br/>Reversibility **不可逆抑制剂**<br/>共价键稳定<br/>作用持久 **可逆共价抑制剂**<br/>存在解离平衡<br/>减少脱靶效应 用QM/MM计算<br/>逆反应能垒判断可逆性 计算方法在共价药物设计中的应用 mindmap root(共价药物计算方法) **QM/MM方法** 准确描述**共价键**<br/>形成的化学机制 计算反应能垒和<br/>**过渡态**几何构型 评估不同弹头的<br/>反应性和选择性 应用案例<br/>新冠病毒主蛋白酶<br/>Michael受体等抑制剂 **约束对接**<br/>Restrained Docking 传统对接方法<br/>无法处理共价键形成 引入约束确保<br/>弹头-靶残基距离角度合理 生成初始结合构象<br/>用于QM/MM精修 **机器学习辅助** 多层感知器MLP<br/>从对接打分预测亲和力 卷积神经网络CNN<br/>学习蛋白配体界面特征 图神经网络GNN<br/>直接预测反应性和选择性 **主动学习**策略<br/>智能筛选减少计算量 **过渡态分析**<br/>TS Analysis 计算非共价态到<br/>共价态的过渡态结构 评估反应能垒<br/>预测选择性 预测反应时间尺度<br/>秒级、分钟级或不可逆 共价药物设计的成功范式 SARS-CoV-2 Mpro抑制剂开发: 结构导向:利用高分辨率晶体结构(如PDB: 7BQY) 弹头筛选:测试Michael受体、醛类、酮酰胺等多种弹头 QM/MM优化:计算不同抑制剂的反应机制和能垒 结构-活性关系:系统优化P1-P4位点的侧链,提高选择性 临床成功:Nirmatrelvir(Paxlovid)成为首个口服COVID-19特效药 Q&A Q1:为什么设计酶的活性远低于天然酶?主要瓶颈是什么? A1:当前设计酶活性比天然酶低10³-10⁶倍,主要原因包括:静态设计范式仅优化过渡态几何,忽略蛋白质动力学;缺乏反应物去稳定化机制;熵-焓补偿未优化;单一催化机制而非多重机制协同;缺乏天然酶的变构调控网络 Q2:构象驱动和熵驱动变构可以通过哪些实验技术区分? A2:X射线晶体学可区分明显的结构差异(构象驱动);NMR弛豫色散探测动力学变化;氢氘交换质谱检测溶剂可及性;单分子FRET实时观察构象分布;计算协方差分析验证相关矩阵变化 Q3:共价药物如何避免脱靶毒性?计算能提供什么帮助? A3:使用弱亲电试剂平衡反应性;优化非共价结合特异性;选择靶蛋白特有的暴露残基;设计可逆共价键降低累积毒性。计算可通过QM/MM预测选择性,对接评估脱靶亲和力,机器学习预测ADMET性质 关键结论与批判性总结 主要贡献 系统整合了酶催化机制、蛋白质动力学、变构调控、从头设计和药物开发等多个子领域,构建了完整的计算酶学知识框架 超越传统过渡态稳定化理论,深入讨论反应物去稳定化、耦合动力学、量子隧穿等多重催化机制的协同作用 详细介绍了QM/MM、自由能计算、增强采样、变构分析等核心计算方法及其适用场景 明确指出计算酶学在酶工程、合成生物学和药物发现中的关键作用和未来发展方向 存在的局限性 精确的QM/MM自由能计算对复杂多步反应仍然昂贵,限制了大规模应用 毫秒尺度构象变化和罕见事件采样仍是挑战 MM力场参数对QM/MM结果有显著影响,特殊残基参数化仍不完善 多步反应中的质子化状态变化处理复杂 从头设计的酶活性仍远低于天然酶,机制洞察到设计原则的转化是开放问题 未来研究方向 开发统一的多尺度整合框架,连接电子结构到细胞尺度 将时间分辨实验技术(XFEL、冷冻电镜)与实时模拟结合 系统表征所有催化相关的构象子态及其对整体速率的贡献 将物理约束嵌入机器学习模型,提高预测可靠性 开发靶向变构位点的调控分子,超越活性位点抑制 将祖先序列重建的进化原则系统应用于现代酶改造
Specific Sytems
· 2025-12-14
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口 本文信息 标题: Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones 作者: Bing-Mei Su, Ze-Hui Shao, Ai-Peng Li, Muhammad Naeem, Juan Lin, Li-Dan Ye, Hong-Wei Yu 发表时间: 2019年12月4日 单位: 浙江大学生物工程研究所、福州大学化学工程学院、浙江工业大学药学院、西北工业大学生命科学学院(中国) 引用格式: Su, B.-M., Shao, Z.-H., Li, A.-P., Naeem, M., Lin, J., Ye, L.-D., & Yu, H.-W. (2020). Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones. ACS Catalysis, 10(1), 864-876. https://doi.org/10.1021/acscatal.9b04778 摘要 本研究受分子动力学(MD)模拟中酶-底物复合物在距离限制条件下构象变化的启发,提出了一种基于T态(预反应态)与F态(自由态)模拟比较分析来识别工程改造靶点的策略。以短链脱氢酶/还原酶(SDR)突变体EbSDR8-G94A/S153L(Mu0)为例,该酶对大位阻芳香酮活性较低。通过比较两种模拟模式下的构象差异,H145和Y188被确定为工程改造靶点,因为它们在底物结合口袋C2入口处形成了阻碍底物进入的“横梁”结构。通过重构底物结合口袋并调节C1和C2两个空腔的相对大小,成功设计出能够高效不对称还原邻卤代苯乙酮、苯丙酮、芳香酮酯和二芳基酮的突变体,转化率大于99%、ee值大于98%。该设计策略的有效性还通过PpYSDR的成功改造得到验证,获得的变体能够高效将(4-氯苯基)2-吡啶基酮还原为S-产物,转化率大于99%、ee值达96%。 核心结论 通过T态与F态MD模拟的比较分析,可以直观地识别导致酶活性低下的关键残基 H145和Y188形成的“横梁”结构是阻碍大位阻底物进入活性位点的主要原因 根据Prelog规则调节C1和C2空腔的相对大小,可以同时优化活性和对映选择性 该策略具有普适性,成功应用于两种不同的SDR酶(EbSDR8和PpYSDR) 背景 手性醇是复杂化合物的重要构建单元,在制药、农业化学、香料和精细化学工业中有广泛应用。据统计,超过25%的药物分子含有手性醇结构单元,其中相当一部分是通过生物催化合成的。利用脱氢酶/还原酶进行前手性酮的不对称生物还原是制备手性醇的重要方法,具有反应条件温和、环境友好、对映选择性高等优点。 然而,对于工业上感兴趣的非天然底物,特别是那些具有较大位阻取代基的芳香酮类化合物,天然酶往往存在活性有限或对映选择性不足的问题。这一瓶颈严重限制了生物催化在合成复杂手性药物中间体中的应用。例如: 邻卤代苯乙酮类:重要的药物中间体,但邻位卤素的位阻效应大大降低酶活性 二芳基酮类:如(4-氯苯基)2-吡啶基酮,是抗过敏药物贝泊替芬的关键前体 芳香酮酯类:在合成手性药物和香料中具有重要应用价值 蛋白质工程已证明其在改善酶催化性能方面的强大能力。对于通过蛋白质工程产生的突变体,计算分子动力学模拟被广泛用于解释酶活性、稳定性和对映选择性变化的机制。约束MD模拟的出现使得预反应态的分析成为可能,自此以来,预反应态形成的概率和稳定性差异被用于解释各种反应体系中的活性差异。 Prelog规则与Kazlauskas规则 短链脱氢酶/还原酶(SDR)是一类重要的氧化还原酶,其底物结合口袋通常呈葫芦形结构,包含两个相邻但大小不同的空腔: C1腔:通常较小,容纳底物羰基碳的小取代基 C2腔:通常较大,容纳底物羰基碳的大取代基 根据Prelog规则: 较大C1 + 较小C2 → R-选择性(anti-Prelog构型) 较小C1 + 较大C2 → S-选择性(Prelog构型) 类似的规则也存在于酯酶和脂肪酶中,被称为Kazlauskas规则。这些规则为酶的对映选择性预测和工程设计提供了重要指导,但其应用前提是底物能够顺利进入催化构象。 https://www.dalalinstitute.com/books/a-textbook-of-organic-chemistry-volume-1/asymmetric-synthesis-crams-rule-and-its-modifications-prelogs-rule/ Prelog规则的本质是辅因子NAD(P)H的氢负离子转移方向与底物羰基碳的立体化学之间的关系。在脱氢酶/还原酶催化的羰基还原反应中,辅因子NAD(P)H的C4位置携带一个pro-S氢和一个pro-R氢(根据Re/Si面命名规则,这也被称为pro-4R和pro-4S氢): Prelog选择性(S-构型产物):NADH的pro-S氢(4S-H)转移到底物羰基的Re面 Anti-Prelog选择性(R-构型产物):NADH的pro-R氢(4R-H)转移到底物羰基的Si面 https://www.nature.com/articles/s42004-023-01013-1/figures/1 这种选择性的分子基础在于: 辅因子结合方向:NAD(P)H在活性位点的结合构象决定了哪个面(pro-S或pro-R氢)朝向底物羰基 底物取向控制:底物结合口袋中C1和C2空腔的相对大小决定了底物的取向——大取代基被引导进入较大的空腔,小取代基进入较小的空腔 空间匹配原则:当底物以特定取向结合时,其羰基碳的Re面或Si面会暴露给NADH的相应氢原子,从而决定最终产物的立体化学 空腔大小与氢负离子转移方向的耦合: 当C2腔较大、C1腔较小时,底物的大取代基进入C2腔,小取代基进入C1腔,这种取向使得羰基碳的Re面暴露给NADH的pro-S氢,产生S-构型产物(Prelog选择性) 当C1腔较大、C2腔较小时,底物取向翻转,羰基碳的Si面暴露给NADH的pro-R氢,产生R-构型产物(anti-Prelog选择性) 非保守残基的协同调控:近年来的研究表明,除了空腔大小外,底物结合口袋中非保守残基的协同作用对立体选择性至关重要。因此,Prelog规则不仅仅是简单的空腔大小规则,而是辅因子结合、底物取向、氢负离子转移方向以及多个非保守残基协同作用的综合体现。这一认识为理性设计提供了更精确的指导:不仅要调节空腔大小,还需要考虑关键残基的化学性质和空间排布。 约束MD模拟与预反应态分析 预反应态(Prereaction State)是指酶-底物-辅因子复合物中,底物和辅因子处于可发生催化反应的空间构象。对于脱氢酶/还原酶,预反应态的形成需要满足两个关键距离条件: $d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}}) \leq 2.8$ Å(质子转移距离) $d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}}) \leq 3.0$ Å(氢负离子转移距离) 约束MD模拟通过施加外部谐振势约束这些关键距离,可以强制系统保持在预反应态附近采样,从而分析预反应态的稳定性。而自由态(Free-State)模拟则无约束,允许系统自然演化,反映底物在酶中的真实结合行为。 核心假设:如果底物结合口袋不适合目标底物,那么T态模拟和F态模拟中的结合模式会存在显著差异。通过分析这些差异,可以识别限制酶活性的关键残基,为理性设计提供靶点。 关键科学问题 如何在没有晶体结构的情况下,系统地识别限制酶对非天然底物活性的关键残基?传统的理性设计方法往往需要大量的试错,而本研究提出的T态/F态比较分析策略能够更直接地揭示导致低反应性的关键残基,从而更准确地确定工程改造靶点。 创新点 提出了T态与F态比较分析的新策略,用于识别酶工程改造的靶点残基 系统阐明了SDR酶底物结合口袋“葫芦形”结构与对映选择性的构效关系 结合Prelog规则,通过调控C1/C2空腔相对大小实现活性与对映选择性的同步优化 建立了从亲和力测定到能量分解的多层次机制解析方法 研究内容 方法概述 graph TB subgraph Input["输入准备"] direction LR A["同源建模<br/>EbSDR8: 4URF<br/>PpYSDR: 5WQO"] --> B["分子对接<br/>AutoDock 4<br/>选择催化构象"] end subgraph MD["MD模拟策略"] direction TB C["T态模拟<br/>预反应态约束<br/>d(Osub-OHY)≤2.8Å<br/>d(Csub-H18NADH)≤3.0Å"] D["F态模拟<br/>自由状态<br/>无距离约束"] end subgraph Analysis["比较分析"] direction TB E["构象差异分析<br/>识别关键残基"] F["能量分解<br/>MM-PBSA方法"] G["亲和力测定<br/>荧光猝灭法"] end subgraph Engineering["理性设计"] direction TB H["打破横梁结构<br/>H145/Y188突变"] I["调节空腔大小<br/>Prelog规则指导"] J["组合突变优化<br/>引入π-π相互作用"] end subgraph Validation["实验验证"] direction TB K["全细胞催化"] L["动力学参数"] M["对映选择性"] end Input --> MD MD --> Analysis Analysis --> Engineering Engineering --> Validation Validation --> N["成功突变体"] 方法要点: 模型构建: EbSDR8 以4URF(52%序列一致性)为模板,同法得到PpYSDR(模板5WQO,39%); AutoDock 4 选取满足催化几何的初始姿势,再用Amber18(FF14SB/GAFF2/TIP3P)补氢、加离子与溶剂。 两阶段MD: 完成三步能量最小化后,先运行T态(带约束的预反应态模拟):对$d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})$[$d(\text{O}{\text{sub}}-\text{OH}{\text{Y150}})$]和$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})$[$d(\text{C}{\text{sub}}-\text{H18}{\text{NADPH}})$]施加2.8 Å/3.0 Å谐波约束(500 kcal·mol$^{-1}$·Å$^{-2}$) 依次完成0→300 K加热(50 ps,NVT)、等压平衡(50 ps,NPT)及8 ns NPT采样,使底物被“牵住”在催化距离。 F态诊断:直接从T态末帧解除约束,再跑8 ns NPT。 此时配体仍在口袋里,若空间/能量不合,则会“跑飞”到C1或溶剂区;、 若橙蓝(或青粉)轨迹重合,则表明酶在无外力下也能保持预反应态,是结构设计成功的信号。 催化判据与分析: $d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})\le 2.8$ Å 且$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})\le 3.0$ Å 统计满足的帧的占比,再结合MM-PBSA能量分解和荧光淬灭测得的亲和力,判断哪些残基需要工程化。F态若频繁跑飞,就与后续低转化率或ee崩塌一一对应。 实验验证: 全细胞催化还原反应 动力学参数测定($K_m$、$k_\text{cat}$) 荧光猝灭法测定全酶/脱辅酶对底物的亲和力 问题诊断:Mu0对大位阻底物活性低下的原因 本研究涉及的底物结构如下: 编号 名称 结构特点 0a 苯乙酮 基准底物 1a 2’-氯代苯乙酮 邻位卤代 2a 2’-溴代苯乙酮 邻位大位阻卤代 3a 苯丙酮 乙基取代 4a 2-氧代-4-苯基丁酸乙酯 芳香酮酯 5a 3-氯丙酮 氯丙基取代 6a (4-氯苯基)2-吡啶基酮 二芳基酮 EbSDR8-G94A/S153L(Mu0)对简单苯乙酮类底物表现出优异的R-选择性还原活性,但对邻卤代苯乙酮(2a)、苯丙酮(3a)、芳香酮酯(4a)等大位阻底物活性很低或完全无活性。 实验证据: 在50 mM底物浓度的全细胞还原反应中: 2’-溴代苯乙酮(2a):转化率仅8.0% 苯丙酮(3a):转化率38% 芳香酮酯(4a):转化率35%,但对映选择性从R型反转为S型(67% ee) 3-氯代丙酮(5a)和二芳基酮(6a):完全无法还原 动力学参数分析揭示了更深层的原因: $k_\text{cat}$值极低:所有测试底物的$k_\text{cat}$均小于0.1 s$^{-1}$,或因严重底物抑制而无法测定 邻位效应显著:2a的活性显著低于1a,表明邻位卤素的位阻效应是活性的主要限制因素 取代基大小敏感:当邻位取代基从氯增大到溴时,$k_\text{cat}$急剧下降 这些结果表明,Mu0的底物结合口袋可能不适合容纳大位阻取代基,限制了对工业上重要的底物的催化能力。 图1:EbSDR8-G94A/S153L(Mu0)的重新设计策略。 关键残基以棍状显示,底物以球棍模型显示。绿色虚线代表氢键,黑色虚线代表氢负离子转移方向。图中展示了:(A)Mu0的“葫芦形”底物结合口袋结构,包含较大的开放腔C1和较小的封闭腔C2;(B)T态与F态模拟的比较分析策略;(C)通过打破H145-Y188“横梁”结构并调节C1/C2相对大小来优化活性和对映选择性。 T态/F态比较分析揭示了问题根源:为了深入理解Mu0对大位阻底物活性低下的分子机制,作者构建了Mu0全酶的预测模型。通过同源建模(模板:4URF,52%序列一致性)和MD模拟优化,模型质量评估显示:VERIFY值为96%(衡量3D-1D相容性,>80%为合格)、ERRAT值为93(评估非键原子间相互作用,>50为高质量)、Ramachandran图中>99%的残基位于允许区域(评估主链二面角合理性),表明模型合理可靠。 结构分析显示,Mu0的底物结合口袋呈典型的“葫芦形”结构: C1腔:较大的开放空腔,通常容纳底物羰基碳的小取代基 C2腔:较小的封闭空腔,通常容纳底物羰基碳的大取代基 催化三联体:S143、Y156、K160,分别负责底物稳定、质子转移和NADH结合 关键发现:H145和Y188通过氢键相互作用形成“横梁”结构($d(\text{OH}{\text{Y188}}-\text{NE2}{\text{H145}}) \leq 3.2$ Å的比例高达78%),阻挡了底物进入C2腔到达活性位点。 能量分解分析(MM-PBSA方法,见后文图3D)进一步证实了这一发现: 催化残基贡献小:S143、Y156、K160对2a$_{\text{ProR}}$结合的能量贡献极小 C1腔吸引力强:I93、A94、Y188、S199、Y202等C1腔残基对底物结合的能量贡献较大 非催化构象(noncatalytic conformation):底物被C1腔强烈吸引,但无法进入质子/氢负离子可转移的几何状态 这一发现解释了为什么Mu0对大位阻底物活性低下:底物虽然能够与酶结合,但无法形成有效的预反应态,因此无法完成催化反应。 突变设计与验证 图2:2a和6a与Mu0及其变体在T态和F态模拟中的结合模式。 (A)2a${\text{ProR}}$与Mu0的结合模式,橙色为T态、蓝色为F态;(B)2a${\text{ProR}}$与Mu1的结合模式;(C)6a${\text{ProR}}$与Mu0的结合模式;(D)6a${\text{ProR}}$与Mu14的结合模式;(E)2a$_{\text{ProS}}$与Mu14的结合模式,青色为T态、粉色为F态。黄色虚线表示氢键,黑色虚线和数值(Å)表示距离。 第一轮突变:将H145和Y188替换为较小残基(Ala、Gly、Cys) 突变体 描述 底物2a转化率 ee值 底物3a转化率 ee值 Mu0 E-G94A/S153L 8.0% >99%(R) 38% >99%(R) Mu1 Mu0-H145A >99% >99%(R) 92% >99%(R) Mu4 Mu0-Y188A 25% 22%(R) 95% >99%(R) Mu0(基线):图2A的橙蓝分离,2a${\text{ProR}}$在F态滑入C1腔,平均$d(\mathrm{O}{\text{sub}}-\mathrm{OH}{\text{Y156}})$/$d(\mathrm{C}{\text{sub}}-\mathrm{H18}_{\text{NADH}})$拉长至4.2/4.7 Å,0%轨迹落在催化窗口,对应表格中对大位阻底物的个位数转化率。 Mu1(H145A):图2B叠加列几乎重合,F态距离缩短到3.7/3.5 Å,5.6%构象满足催化限制,使2a、3a的转化率跃升至>90%,$k_\text{cat}$提高35倍以上。 Mu4(Y188A):虽然列表显示对3a的转化率达到95%,但C2腔被过度放大,2a的ee值跌到22%(R),提示即便橙蓝差异来自“过度扩腔”,也会导致对映选择性崩塌。 第二轮突变:针对二芳基酮6a 单点突变无法使酶还原更大的二芳基酮(4-氯苯基)2-吡啶基酮(6a)。通过组合突变和引入π-π相互作用: 突变体 描述 底物6a转化率 ee值 Mu10 Mu0-H145F/Y188A 94% 91%(R) Mu14 Mu0-G94Q/H145F/Y188A 99% 98%(R) 图2C对照显示,Mu0-6a$_{\text{ProR}}$在F态下完全偏离催化距离,必须通过重构C2腔与调节底物取向来恢复T/F一致性。 关键设计逻辑: H145F:提供π-π相互作用并稳定6a的大芳环,使图2D中橙蓝叠加的右列距离保持3.0 Å。 Y188A:释放C2腔空间,让p-氯苯环进入更大的空腔,消除图2C那种F态偏离。 G94Q:缩小C1腔、增加极性来吸引吡啶环,从而在图2D中维持R取向;图2E显示若底物试图以S构象结合(青粉分离,仅15%时间满足催化距离),就需要巨大结构波动,因而实验上仍检测到98% ee(R)。 Mu14(G94Q/H145F/Y188A):图2D的橙蓝完全对齐,F态有21%的时间处在绿色催化区域,对应表格里6a的99%转化率和98% ee(R)。 Mu14-2a$_{\text{ProS}}$:图2E青粉分叉,只能偶发性满足催化距离(15%),因此不会输出S产物。通过“叠加列对齐=自由态维持催化构象”这一判据,可以把图2、图3的理论分析与表格中的活性/ee数据串联起来,形成完整的诊断—设计—验证闭环。 机制解析 图3:F态轨迹分布与能量分解。 (A)Mu0-2a${\text{ProR}}$(红)与Mu1-2a${\text{ProR}}$(蓝)的F态采样;(B)Mu0-6a${\text{ProR}}$(红)、Mu14-6a${\text{ProR}}$(蓝)与Mu14-6a${\text{ProS}}$(粉)的采样;(C)P-6a${\text{ProR/S}}$与Mu17-6a${\text{ProR/S}}$的采样;(D-F)对应能量分解。绿色区域表示满足$d(\text{O}{\text{sub}}-\text{OH}{\text{Tyr}})\le 2.8$ Å和$d(\text{C}{\text{sub}}-\text{H18}_{\text{NAD(P)H}})\le 3.0$ Å的“催化窗口”。(感觉都没怎么满足。。) 图3把构象云图与能量贡献拆成三类体系: 图3A:Mu0(红)完全漂在绿色窗口之外,而Mu1(蓝)明显向窗口收敛,提示LOGO突变让自由态更容易进入催化几何。 图3B:Mu14-6a${\text{ProR}}$(蓝)集中在窗口内,Mu14-6a${\text{ProS}}$(粉)偏离窗口,Mu0-6a(红)几乎无法到达窗口,揭示组合突变只稳定R-构象。 图3C:PpYSDR(红/绿)对R/S采样差异不大;M85S(蓝/粉)把粉色点推入窗口,说明策略可推广到其它SDR。 图3D-F:从Mu0到Mu1或Mu14,催化残基及C2腔残基的能量贡献由正转负,开始稳定底物;Mu17也让Y150/K154对S-构象提供更多负能量。 第一轮突变:H145A如何拉近T/F轨迹 Mu1(H145A)对2a的活性提升: 构象收敛(图3A):Mu1-2a$_{\text{ProR}}$的蓝色轨迹侵入绿色窗口,预反应态比例由0增至5.6%。 距离优化:平均$d(\text{O}{\text{sub}}-\text{OH}{\text{Y156}})$从4.24 Å缩到3.7 Å,$d(\text{C}{\text{sub}}-\text{H18}{\text{NADH}})$从4.68 Å缩到3.5 Å。 能量重分布(图3D):S143/Y156/K160对底物的贡献从接近0变为-1.5~-2.0 kcal/mol,C2腔残基也转为稳定力。 催化效率提升:$k_\text{cat}$从0.030 s$^{-1}$提升到1.1 s$^{-1}$,35倍以上。 为什么简单的H145A突变能产生如此大的效果? H145A突变的成功在于: 消除空间位阻:组氨酸的咪唑环被较小的丙氨酸取代,消除了对C2腔入口的空间阻碍 打破氢键网络:H145与Y188之间的氢键相互作用被破坏, “横梁”结构被打破 增加柔性:A145比H145更灵活,允许底物更容易调整构象进入C2腔 非极性环境维持:丙氨酸的非极性侧链维持了C2腔的疏水环境,适合芳香底物结合 对映选择性反转机制(Mu4-4a) 底物4a的对映选择性反转现象:Mu0对4a表现为S-选择性(67% ee),但经过Y188A突变后,变体Mu4表现为R-选择性(>99% ee)。这一现象可以通过以下机制解释: 构象分布差异: Mu0-4a:底物在F态模拟中倾向于形成S-选择性构象,C1腔容纳羰基苯环,C2腔容纳乙酯基团 Mu4-4a:Y188A扩大C2腔后,乙酯基团在C2腔中的空间限制减弱,底物可以翻转,使苯环进入C2腔,乙酯基团进入C1腔,符合anti-Prelog规则的R-选择性 能量分解证据: Mu0:C1腔残基(I93、A94)对底物结合的能量贡献更大,倾向于将苯环定位在C1 Mu4:C2腔扩大后,C2腔残基的能量贡献相对增加,有利于乙酯基团占据C2腔 静电效应:乙酯基团的酯键与S143、Y156的静电相互作用在翻转构象中更有利 这一发现表明,通过调节两个空腔的相对大小,不仅可以影响底物结合,还可以完全改变对映选择性,为工程设计提供了精确的控制手段。 组合突变的协同效应(图3B、3E) 分子识别挑战: 空间位阻:6a包含4-氯苯基和2-吡啶基两个大芳环,需要重新分配C1/C2腔体积。 极性需求:吡啶环电子云不均,要求C1腔提供更强的极性配合。 构象限制:两个芳环限制底物转动自由度,需要诱导其以最有利的取向进入催化区。 三突变协同机制: H145F:提供π-π堆叠与刚性骨架,压制无意义的旋转,保持芳环在C2腔。 Y188A:释放C2腔空间、降低极性,容纳p-氯苯基。 G94Q:缩小C1腔并增强极性,引导吡啶氮与谷氨酰胺氢键配对,固定R-取向。 能量分解(图3E): Mu0-6a$_{\text{ProR}}$(红)主要依赖C1腔残基(I93/A94)稳定底物,催化残基贡献微弱,因而偏向S-构型。 Mu14-6a$_{\text{ProR}}$(蓝)让S143/Y156/K160和C2腔残基贡献转负,R-构象得以稳定。 Mu14-6a$_{\text{ProS}}$(粉)仍出现正值,说明S-取向在突变体中受排斥。 策略验证:PpYSDR的改造(图3C、3F) 为验证策略的普适性,对另一种SDR酶PpYSDR(来自Pseudomonas putida)进行改造: 酶 描述 底物6a转化率 ee值 P PpYSDR 44% 41%(S) Mu17 P-M85S >99% 96%(S) 图3C显示,野生型PpYSDR(红/绿)对R/S构象采样差异不大;M85S(蓝/粉)则让粉色点群进入绿色窗口。图3F进一步表明,M85S让Y150/K154对S构型提供负能量,而对R构型贡献仍为正,从而仅需扩张C1腔就能稳定S-产物。最终6a的转化率达到>99%,ee 提升至96%(S),$k_\text{cat}$提高约5倍,验证了“T态/F态比较+能量分解”在其他SDR上的可迁移性。 关键结论与批判性总结 主要贡献: 建立了T态/F态比较分析的系统方法论,为酶理性设计提供了新工具 深入阐明了SDR酶“葫芦形”结合口袋与对映选择性的构效关系 成功设计了多个高活性、高对映选择性的SDR突变体 局限性: 依赖于同源建模的准确性,对于无合适模板的酶可能受限 能量分解方法(MM-PBSA)存在固有的近似误差 主要关注底物结合,未深入探讨过渡态稳定化 未来方向: 结合机器学习方法,自动识别T态/F态差异显著的残基 扩展到其他氧化还原酶和非氧化还原酶体系 开发高通量计算筛选流程,减少实验验证工作量 小编锐评: MD跑得太短了,而且我以为free态应该是没有底物的。而且跑出底物翻转这种构象变化略难,还得靠先验知识建模,MD只是采个样relax一下(倒也确实不用太长。。) 学一下原理、讲故事角度(也不过是几何约束和能量分解)好了。原理和现实(模拟)还是有点差距的,不会完美对上,不然放结果就不会遮遮掩掩的。还好这篇有湿实验
Specific Sytems
· 2025-12-14
预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口(附录)
附录:预反应态vs自由态:用双态MD梳理SDR“葫芦口袋”精准打开大位阻芳香酮入口 本文信息 标题: Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones 作者: Bing-Mei Su, Ze-Hui Shao, Ai-Peng Li, Muhammad Naeem, Juan Lin, Li-Dan Ye, Hong-Wei Yu 发表时间: 2019年12月4日 单位: 浙江大学生物工程研究所、福州大学化学工程学院、浙江工业大学药学院、西北工业大学生命科学学院(中国) 引用格式: Su, B.-M., Shao, Z.-H., Li, A.-P., Naeem, M., Lin, J., Ye, L.-D., & Yu, H.-W. (2020). Rational Design of Dehydrogenase/Reductases Based on Comparative Structural Analysis of Prereaction-State and Free-State Simulations for Efficient Asymmetric Reduction of Bulky Aryl Ketones. ACS Catalysis, 10(1), 864-876. https://doi.org/10.1021/acscatal.9b04778 Q&A Q1: 为什么选择T态/F态比较分析而不是直接的自由能计算? A1: T态/F态比较分析的优势在于能够直观地揭示哪些残基导致了预反应态难以形成。当两种模拟模式下的结合模式差异显著时,说明底物难以自发进入反应构象,而残基构象差异最大的位置就是改造靶点。这比复杂的自由能计算更直接、更易于指导实验设计。 Q2: 为什么$k_\text{cat}$提高的同时$K_m$也增加了? A2: $k_\text{cat}$和$K_m$的同时增加表明非催化构象(noncatalytic conformation)的占比降低。虽然$K_m$升高意味着底物亲和力降低,但在工业应用中高底物浓度可以弥补这一不足。更重要的是,高$k_\text{cat}$代表更高的催化效率,且较低的亲和力还可以缓解底物抑制问题。 Q3: 这种策略对其他类型的酶是否适用? A3: 该策略的核心思想——比较有/无约束条件下的底物结合模式差异——具有较好的普适性。对于任何具有明确反应几何要求的酶(如需要特定底物-辅因子距离),都可以应用类似的分析方法。但对于反应机制复杂或多步反应的酶,可能需要调整约束条件的设置。 Q4: 如何避免扩大结合口袋后对映选择性下降? A4: 关键是同步调节两个空腔的相对大小,而非单纯扩大其中一个。根据Prelog规则,需要在扩大容纳大取代基的空腔的同时,通过引入大残基或极性残基来调整另一个空腔的大小和化学环境,以维持或提高对映选择性。 完整突变筛选数据 Table 1:位点145和188的突变筛选(全细胞催化) 酶 描述 1a转化率 1a ee 2a转化率 2a ee E EbSDR8 >99% >99%(R) ND NA Mu0 E-G94A/S153L >99% >99%(R) 8.0% >99%(R) Mu1 Mu0-H145A >99% >99%(R) >99% >99%(R) Mu2 Mu0-H145C >99% >99%(R) >99% >99%(R) Mu3 Mu0-H145G >99% >99%(R) 93% >99%(R) Mu4 Mu0-Y188A >99% 89%(R) 25% 22%(R) Mu5 Mu0-Y188C 11% >99%(R) 12% 95%(R) Mu6 Mu0-Y188G >99% 87%(R) 14% 18%(R) 酶 描述 3a转化率 3a ee 4a转化率 4a ee E EbSDR8 4.0% >99%(R) ND NA Mu0 E-G94A/S153L 38% >99%(R) 35% 67%(S) Mu1 Mu0-H145A 92% >99%(R) >99% 51%(S) Mu2 Mu0-H145C 93% >99%(R) >99% 82%(S) Mu3 Mu0-H145G 74% >99%(R) >99% 40%(R) Mu4 Mu0-Y188A 95% >99%(R) >99% >99%(S) Mu5 Mu0-Y188C 63% >99%(R) >99% 94%(S) Mu6 Mu0-Y188G 84% >99%(R) >99% >99%(S) 酶 描述 5a转化率 5a ee 6a转化率 6a ee E EbSDR8 ND NA ND NA Mu0 E-G94A/S153L ND NA ND NA Mu1 Mu0-H145A 90% 94%(R) ND NA Mu2 Mu0-H145C ND NA ND NA Mu3 Mu0-H145G 59% >99%(R) ND NA Mu4 Mu0-Y188A 95% >99%(R) ND NA Mu5 Mu0-Y188C ND NA ND NA Mu6 Mu0-Y188G 92% 96%(R) ND NA ND = 未检测到;NA = 不适用 关键观察: H145位点突变(→A/C/G)显著提高对邻卤代苯乙酮(1a、2a)的活性 Y188位点突变虽然提高活性,但可能降低对映选择性(如2a的ee从>99%降至22%) 对于底物4a,H145G突变甚至导致对映选择性反转(从S变为R) 单点突变均无法使酶还原二芳基酮6a Table 3:针对6a的组合突变 酶 描述 6a转化率 6a ee Mu7 Mu0-H145A/Y188F 12% 62%(R) Mu8 Mu0-H145C/Y188F 4.4% >99%(R) Mu9 Mu0-H145G/Y188F 24% 11%(S) Mu10 Mu0-H145F/Y188A 94% 91%(R) Mu11 Mu0-H145F/Y188C ND NA Mu12 Mu0-H145F/Y188G 93% 84%(R) Mu13 Mu0-G94R/H145F/Y188A 37% >99%(R) Mu14 Mu0-G94Q/H145F/Y188A 99% 98%(R) P PpYSDR 44% 41%(S) Mu15 P-M85A 91% 93%(S) Mu16 P-M85G >99% 92%(S) Mu17 P-M85S >99% 96%(S) 设计逻辑: H145F保留芳香环以与底物形成π-π相互作用 Y188A/G扩大C2腔以容纳大取代基 G94Q/R调节C1腔大小和极性以优化对映选择性 完整动力学参数 Table 2:表观动力学参数 底物 酶 描述 $K_m$ (mM) $k_\text{cat}$ (1/s) $k_\text{cat}/K_m$ (1/mM/s) 1a E EbSDR8 0.22 0.020 0.11 1a Mu0 E-G94A/S153L 0.15 0.10 0.70 1a Mu1 Mu0-H145A 0.21 0.97 4.6 1a Mu2 Mu0-H145C 0.23 0.28 1.2 1a Mu3 Mu0-H145G 1.3 1.2 0.93 2a E EbSDR8 0.020 0.010 0.54 2a Mu0 E-G94A/S153L 0.70 0.030 0.050 2a Mu1 Mu0-H145A 0.090 1.1 12 2a Mu2 Mu0-H145C 0.040 0.15 3.7 2a Mu3 Mu0-H145G 2.0 0.69 0.35 3a E EbSDR8 0.10 0.010 0.14 3a Mu0 E-G94A/S153L 0.090 0.070 0.81 3a Mu1 Mu0-H145A 0.30 0.75 2.5 3a Mu2 Mu0-H145C 0.060 0.070 1.2 3a Mu4 Mu0-Y188A 0.55 0.51 0.91 4a E EbSDR8 NA NA NA 4a Mu0 E-G94A/S153L 0.010 0.030 5.5 4a Mu4 Mu0-Y188A 0.18 25 140 4a Mu6 Mu0-Y188G 0.40 52 130 5a E EbSDR8 0.030 0.020 0.63 5a Mu0 E-G94A/S153L 0.090 0.060 0.66 5a Mu4 Mu0-Y188A 0.54 1.23 2.29 6a E EbSDR8 0.030 0.010 0.42 6a Mu0 E-G94A/S153L NA NA NA 6a Mu10 Mu0-H145F/Y188A 2.0 4.2 2.1 6a Mu14 Mu0-G94Q/H145F/Y188A 1.6 2.2 1.3 6a P PpYSDR 0.44 0.23 0.53 6a Mu17 P-M85S 0.45 1.1 2.4 关键发现: Mu1对2a的$k_\text{cat}$比Mu0提高37倍(从0.030到1.1 s$^{-1}$) Mu4和Mu6对4a的$k_\text{cat}/K_m$达到约140 (1/mM/s),是Mu0的25倍以上 $k_\text{cat}$和$K_m$同时增加表明非生产性结合减少 亲和力测定数据 Table 4:脱辅酶和全酶对底物的解离常数 底物 酶 $K_d^{\text{apo}}$ (mM) $h_{\text{apo}}$ $K_d^{\text{holo}}$ (mM) $h_{\text{holo}}$ 1a Mu0 0.011 1.17 0.071 0.68 1a Mu1 0.010 1.45 0.0056 1.67 2a Mu0 0.0023 0.67 0.037 0.87 2a Mu1 0.0023 1.06 0.0055 1.69 3a Mu0 0.0094 0.93 0.028 1.06 3a Mu4 0.010 1.10 0.010 0.77 4a Mu0 0.011 1.04 0.022 0.80 4a Mu4 0.0059 0.91 0.0035 1.38 5a Mu0 0.0037 1.25 0.017 0.65 5a Mu4 0.0042 1.19 0.0075 1.28 6a Mu0 0.0078 1.57 NA NA 6a Mu14 0.012 1.35 0.022 1.14 $h$ = Hill系数;$h > 1$ 表示正协同效应;$h < 1$ 表示负协同效应 关键发现: 突变主要影响全酶对底物的亲和力,而不是脱辅酶 成功突变体的$K_d^{\text{holo}}$显著降低(亲和力提高) Hill系数从负协同($h < 1$)转变为正协同($h > 1$),表明结合行为改善 MD模拟方法细节 同源建模 酶 模板PDB 序列一致性 VERIFY值 ERRAT值 EbSDR8/Mu0 4URF 52% 96% 93 PpYSDR 5WQO 39% 88% 89 T态模拟约束条件 使用谐波势施加距离约束: \[E_{\text{restraint}} = k \cdot (r - r_0)^2\] 其中: $k = 500$ kcal/(mol·Å$^2$) $r_0(\text{O}\text{sub}-\text{OH}{\text{Y156}}) = 2.8$ Å $r_0(\text{C}\text{sub}-\text{H18}{\text{NADH}}) = 3.0$ Å 能量分解分析 使用MM-PBSA方法计算底物结合口袋(底物6 Å范围内)残基对底物结合的能量贡献。 Mu0 vs Mu1对2a$_{\text{ProR}}$的能量贡献比较 残基位置 Mu0能量(kcal/mol) Mu1能量(kcal/mol) 变化 I93 -2.5 -1.8 ↓ C1吸引减弱 A94 -1.8 -1.5 ↓ S143 -0.3 -1.5 ↑ 催化残基贡献增加 H145/A145 -0.8 -0.5 ↓ 空间位阻消除 Y156 -0.5 -2.0 ↑ 催化残基贡献增加 K160 -0.2 -1.0 ↑ 催化残基贡献增加 Y188 -2.0 -1.8 ↓ 解释:突变后,催化残基(S143、Y156、K160)对底物结合的能量贡献显著增加,表明底物能够更好地进入催化构象。 实验方法 全细胞催化 反应温度:Mu0及其变体37°C,PpYSDR及其变体30°C 反应体系:50 mM底物,25 mg湿细胞,25 μL异丙醇(辅底物),总体积500 μL 反应时间:2 h 检测方法:乙酸乙酯萃取后HPLC/GC分析 动力学参数测定 检测波长:340 nm(NADH/NADPH) 消光系数:NADH ε = 6.0/mM/cm,NADPH ε = 5.3/mM/cm 底物浓度范围:0.2-20 mM 荧光猝灭法测定亲和力 脱辅酶:测定底物结合后蛋白荧光猝灭 全酶:测定底物结合后NAD(P)H荧光变化 数据拟合:Hill方程
Specific Sytems
· 2025-12-08
GH161家族β-葡聚糖磷酸化酶:从肠道宏基因组到催化机制的结构解析
GH161家族β-葡聚糖磷酸化酶:Gate Loop动力学如何精准调控多糖合成 本文信息 标题: Structural and Functional Dissection of GH161 β-Glucan Phosphorylases: Molecular Specificities and Dynamics of Catalysis 作者: Mikel Urresti, Pedro A. Eyers 等 发表时间: 2025年11月12日 单位: University of Liverpool(英国) 引用格式: Urresti, M., et al. (2025). Structural and Functional Dissection of GH161 β-Glucan Phosphorylases: Molecular Specificities and Dynamics of Catalysis. ACS Catalysis, 15(8), 6182-6197. https://doi.org/10.1021/acscatal.4c07629 解析的结构: PDB: 9GEN, 9GEO, 9GEP, 9GEQ; EMDB: EMD-51581~EMD-51584 摘要 糖苷磷酸化酶(GPs)是一类独特的碳水化合物活性酶,它们利用无机磷酸盐代替水来切割糖苷键,从而生成糖-1-磷酸产物。在GH-Q clan中,GH161家族是最新发现且研究最少的成员。本研究从人类肠道宏基因组中鉴定并表征了三个GH161酶(GH161A、GH161B、GH161C),证明它们都是β-1,3-葡聚糖磷酸化酶,以α-D-葡萄糖-1-磷酸(αGlc1P)为供体合成β-1,3-连接的葡聚糖。通过冷冻电镜解析了GH161A的高分辨率结构(2.41 Å),揭示了一个关键的gate loop结构域如何通过开-闭构象变化调控底物进入和产物释放。3D变异性分析(3DVA)进一步揭示了二聚体催化过程中的反对称运动模式,为理解磷酸化酶的催化动力学提供了新见解。 核心结论 GH161家族酶是β-1,3-葡聚糖磷酸化酶,可高效合成长链β-葡聚糖 Gate loop的开-闭动力学是催化循环的核心调控机制 二聚体两个亚基呈现反对称运动,可能代表催化循环的不同阶段 GH161A具有最高的热稳定性($T_m$ = 74.8°C)和聚合活性 背景 糖苷磷酸化酶(Glycoside Phosphorylases, GPs)在碳水化合物代谢中扮演着独特角色。与糖苷水解酶使用水作为亲核试剂不同,GPs利用无机磷酸盐进行磷酸解反应,生成糖-1-磷酸和缩短的糖链。这种反应在热力学上是可逆的,使得GPs既能降解多糖,也能在逆向磷酸解模式下合成多糖。 β-葡聚糖是一类具有重要生物活性的多糖,广泛存在于谷物、真菌和细菌中。它们在生物材料、生物燃料、生物防治以及营养保健和制药领域展现出广泛的应用潜力。然而,β-葡聚糖的酶法合成一直面临挑战:传统的糖基转移酶需要昂贵的核苷酸糖(如UDP-葡萄糖)作为供体,限制了工业应用。 GH-Q clan是CAZy数据库中的一个糖苷磷酸化酶超家族,包含GH94、GH149和GH161三个家族。其中GH94主要作用于β-1,4-连接(如纤维二糖),GH149作用于β-1,3-连接的葡聚糖。GH161是2022年才建立的新家族,其成员的底物特异性和催化机制仍不清楚。 关键科学问题 GH161家族酶的底物特异性是什么?它们如何识别和加工β-葡聚糖底物?与同一clan中的GH94和GH149家族相比,GH161有何独特之处?解答这些问题需要高分辨率的三维结构信息,而此前GH161家族尚无任何实验结构。 创新点 首次解析GH161家族酶的原子分辨率结构 揭示gate loop的动力学行为及其在催化中的调控作用 发现二聚体的反对称运动模式,提出催化循环的动力学模型 系统比较GH-Q clan三个家族的结构与功能差异 研究内容 方法概述 graph TB subgraph S1["1.功能表征"] direction LR A["宏基因组序列挖掘"] --> B["大肠杆菌重组表达"] B --> C["底物特异性筛选"] C --> D["酶促动力学测定"] end subgraph S2["2.结构解析"] direction LR E["Cryo-EM数据采集"] --> F["单颗粒重构"] F --> G["模型构建与优化"] G --> H["3DVA动力学分析"] end subgraph S3["3.比较分析"] direction LR I["AlphaFold2建模"] --> J["GH-Q clan结构比对"] J --> K["进化与功能关联"] end S1 --> S2 --> S3 style D fill:#e1f5ff style H fill:#fff9c4 style K fill:#ffe0b2 酶的来源与表达:从人类肠道宏基因组数据库中鉴定了三个GH161序列(GH161A、GH161B、GH161C),在大肠杆菌BL21(DE3)中重组表达并纯化。 功能表征: 使用多种糖作为供体和受体进行活性筛选 通过MALDI-TOF质谱和NMR确定产物结构 测定稳态动力学参数和热稳定性 结构解析: 在Titan Krios上采集cryo-EM数据(300 kV) 使用RELION进行单颗粒重构 解析了四种状态:apo态、与αGlc1P复合物、与昆布三糖(laminaritriose,LM3,三个葡萄糖通过β-1,3键连接)复合物、与葡萄糖/磷酸根复合物 使用CryoSPARC进行3D分类和3D变异性分析(3DVA):这是一种基于cryo-EM数据的计算方法,无需MD模拟即可从实验数据中直接提取蛋白质的构象异质性和动力学信息 一、功能筛选与底物特异性 图1:GH161酶的功能表征 (A)β-1,3-葡聚糖磷酸化酶的反应机制示意图,αGlc1P作为供体,β-1,3-葡聚糖作为受体 (B)供体筛选:三个酶都特异性使用αGlc1P,不接受其他糖-1-磷酸 (C)受体筛选:GH161A和GH161C偏好β-1,3-连接的寡糖,GH161B也能使用β-1,4-连接底物 (D)链长特异性:GH161A可合成长链产物(DP > 10),GH161B和GH161C产物较短 三个GH161酶都表现出β-1,3-葡聚糖磷酸化酶活性,但在底物偏好和产物链长上存在差异: 酶 最佳受体 最大产物长度 $T_m$ (°C) GH161A 昆布三糖 > DP10 74.8 GH161B 昆布二糖/纤维二糖 DP4-5 67.9 GH161C 昆布三糖 DP5-6 58.9 GH161A是最高效的聚合酶,能够将短链受体延伸成长链β-1,3-葡聚糖。这种高聚合活性使其成为β-葡聚糖生物合成的潜在工具酶。 二、GH161A的整体结构 图2:GH161A apo态的冷冻电镜结构 (A)二聚体整体结构,两个亚基以青色和深青色区分 (B)单体结构域组成:N端结构域(NTD)、催化结构域(TIM桶)、C端结构域(CTD) (C)与GH94纤维二糖磷酸化酶的结构比对,显示保守的TIM桶核心 (D)门控环(gate loop,残基348-369)的位置和构象 GH161A形成同源二聚体,每个亚基包含三个结构域: N端结构域(NTD):α/β折叠,功能尚不明确 催化结构域:经典的(α/β)₈ TIM桶结构,包含活性位点 C端结构域(CTD):α-螺旋束,参与二聚化 活性位点位于TIM桶的C端开口处,被一个关键的gate loop(残基348-369)所覆盖。这个gate loop在底物结合前后经历显著的构象变化。 三、底物结合与活性位点 图3:GH161A与底物的复合物结构 (A)与αGlc1P复合物的整体视图,显示供体结合在-1亚位点 (B)-1亚位点的详细相互作用:αGlc1P与Y204、R206、D138、H368等残基形成氢键 (C)gate loop关闭状态下的构象,H368和Y370插入活性位点 (D)昆布三糖复合物结构,受体结合在+1至+3亚位点 (E)+1/+2亚位点的相互作用网络 (F)磷酸根/葡萄糖复合物,代表催化后的产物态 (G)β-1,3-葡聚糖链在活性位点的延伸方向 供体结合位点(-1亚位点)的关键残基包括: D138:作为催化碱,活化进攻的羟基 R206:稳定磷酸根的负电荷 Y204、H368:与葡萄糖环形成堆积作用 受体结合位点(+1至+3亚位点)相对开放,解释了GH161A能够加工长链底物的能力。 四、Gate Loop的构象动力学 图4:底物结合诱导的构象变化 (A)3D分类揭示两类颗粒:Class 1(47%)为开-闭不对称态,Class 2(53%)为闭-闭对称态 (B)主成分分析(PCA)显示gate loop沿两种运动模式变化 (C)Morph动画显示gate loop从开放到关闭的过渡 Gate loop的开-闭转换是催化循环的核心: 开放态:gate loop远离活性位点,允许底物进入 关闭态:gate loop覆盖活性位点,H368定位αGlc1P的C1位置进行催化 这种不对称分布暗示两个亚基可能处于催化循环的不同阶段。 五、二聚体的反对称运动 图5:3D变异性分析揭示的动力学模式 (A)整体刚体运动(Mode 1) (B)反对称模式(Mode 2):一个亚基的gate loop开放时,另一个关闭 (C)对称模式(Mode 3):两个亚基的gate loop同时开放或关闭 (D)门控环运动的局部放大,显示H368残基的位移 3DVA分析原理:3D Variability Analysis(Punjani & Fleet, 2021)是一种基于主成分分析的cryo-EM数据处理方法。具体而言: 数据准备:对GH161A的61.9万(apo态)或49.2万(催化活性态)个单颗粒进行对称性扩展和局部优化 构象空间建模:将每个颗粒的3D密度图视为高维空间中的一个点,计算所有颗粒之间的协方差矩阵 主成分提取:通过类似PCA的降维方法,识别出解释数据变异性最大的几个主方向(即运动模式) 连续轨迹重建:沿每个主成分方向生成一系列连续的3D重构(如20帧),形成”分子电影” 这种方法的核心是从静态快照中恢复动态信息:尽管每张cryo-EM图像都是蛋白质某一瞬间的”冻结”状态,但通过统计分析成千上万张图像的集体行为,可以推断出蛋白质在溶液中的主要构象变化模式。 重要局限:3DVA只能识别出存在哪些构象以及它们之间的转换路径,但无法确定运动的方向性(A→B还是B→A)或转换速率。因此,本研究中gate loop”从开放到关闭”的动画方向是根据催化逻辑推断的(底物需要先进入活性位点),而非3DVA直接给出的时间序列。 这就像看一堆照片vs看视频: 3DVA = 从很多照片推断运动模式(但不知道拍摄顺序) MD = 真实的视频(但可能是”电影特效”而非纪录片) 所以最理想的研究策略是结合两者:用3DVA确定实验支持的构象空间,再用MD模拟探索这些构象之间的动力学转换。 3DVA分析揭示了三种主要的运动模式: 模式 特征 生物学意义 Mode 1 整体刚体运动 样品取向变化 Mode 2 反对称门控 交替催化机制 Mode 3 对称门控 同步开放/关闭 反对称运动模式的生物学意义: Mode 2(反对称模式)在催化活性态的数据集中占主导地位,提示这是GH161A的主要催化运动模式。这种模式展现了一个引人注目的特征:当一个活性位点关闭时,另一个活性位点开放,反之亦然。这与传统认为的”多聚体磷酸化酶的单体功能独立”观点形成鲜明对比。 作者提出,GH161A的两个原聚体(protomers)偏好以交替方式工作,这可能对催化有利。这一发现与Chen等人在2023年Chemical Reviews上发表的综述中讨论的二聚体酶正协同性(positive cooperativity)概念高度一致。该综述指出,影响二聚体酶协同性的因素包括: 空置vs占据活性位点的动力学差异 亚基-亚基相互作用的重要性 GH161A恰好展现了这些特征,提示两个活性位点之间可能存在某种信号传递通路(communication pathway)。 Communication Pathway假说: 作者尝试通过追踪两个不对称原聚体之间位移最大的区域来勾勒这条通路,发现信号可能从一个活性位点传递到对侧原聚体的gate loop。这立即引发了一个类似”先有鸡还是先有蛋”的生化悖论:gate loop的关闭是从gate loop本身启动,还是从活性位点启动? 答案是:两者都不是严格意义上的首先。正如文献57所述,loop关闭和跨二聚体的信号传递在能量上是耦合的,以协同方式(concerted manner)进行。也就是说,gate loop关闭和活性位点的底物结合是相互促进、同步发生的过程。 对称运动模式的含义: Mode 3展现了一种呼吸样运动(breathing-like motion):两个亚基同时向二聚体中心移动,然后再向外运动。虽然这种模式在催化活性态中不占主导,但在apo态和仅结合LM5的复合物中观察到。这提示: 对称运动可能代表酶在非催化状态下的构象涨落 反对称运动仅在同时存在供体和受体时被触发 值得强调的是,这些运动模式都是从实验数据中直接观察到的,而非通过计算机模拟预测的。这为理解磷酸化酶的催化动力学提供了坚实的实验基础 六、GH161家族的结构比较 图6:GH161A、GH161B和GH161C的结构比较 (A)GH161A实验结构(青色) (B)GH161B AlphaFold2模型(紫色) (C)GH161C AlphaFold2模型(橙色) 下方面板:gate loop区域的序列和结构差异 三个GH161酶的整体结构高度相似,但gate loop区域存在显著差异: GH161A:gate loop最长(22残基),包含关键的H368 GH161B:gate loop较短,缺少H368等效残基 GH161C:gate loop长度中等,K130和K132可能参与底物识别 这些差异可能解释了三个酶在底物特异性和聚合能力上的差异 七、GH-Q Clan的进化关系 图7:GH-Q clan三个家族的结构比较 (A)GH161A(本研究) (B)GH94纤维二糖磷酸化酶 (C)GH149 β-1,3-葡聚糖磷酸化酶 (D)GH94 β-1,2-寡糖磷酸化酶 下方面板:活性位点的关键差异 GH-Q clan的三个家族共享: (α/β)₈ TIM桶催化结构域 保守的催化残基(Asp作为催化碱) 二聚体或多聚体组装 但它们在连接特异性上有明显分化: GH94:β-1,4和β-1,2连接 GH149:β-1,3连接 GH161:β-1,3连接(本研究确认) GH161与GH149在底物特异性上重叠,但结构差异表明它们是独立进化的β-1,3-葡聚糖磷酸化酶 Q&A Q1:为什么GH161A的聚合活性比GH161B和GH161C高得多? A1:主要原因在于gate loop的结构差异: GH161A的gate loop包含完整的H368残基,能够精确定位供体糖 GH161A的受体结合通道更开放,允许长链产物的延伸 GH161A的热稳定性最高(74.8°C),在反应条件下保持更好的催化活性 Q2:反对称运动模式对催化有什么功能意义?这种协同性在其他磷酸化酶中观察到过吗? A2:反对称运动揭示了GH161A可能具有正协同性,这在糖苷磷酸化酶家族中非常罕见: 功能意义: 提高催化效率:交替工作模式可能避免两个活性位点同时处于能量不利的中间态 产物释放优化:一个亚基的产物释放可能促进另一个亚基的底物结合 能量耦合:一个亚基的gate loop关闭释放的能量可能帮助另一个亚基的gate loop开放 与其他磷酸化酶的对比: 大多数糖苷磷酸化酶的多聚体亚基被认为是功能独立的,没有明显的协同性 唯一例外:哺乳动物糖原磷酸化酶展现出变构调控和协同性,但其机制与GH161A不同 GH161A的反对称运动是首次在GH-Q clan中观察到的亚基间协调行为 需要进一步验证: 动力学实验(如底物浓度依赖曲线的Hill系数) 单分子FRET实验验证两个活性位点的动力学相关性 MD模拟探索communication pathway的分子机制 Q3:GH161酶在肠道微生物组中的生理功能是什么? A3:这些酶可能参与: 多糖降解:磷酸解β-葡聚糖获取能量 多糖合成:在特定条件下合成β-葡聚糖作为储能物质或生物膜成分 共生代谢:与宿主或其他微生物的碳水化合物代谢互作 Q4:为什么使用cryo-EM而不是X射线晶体学? A4:Cryo-EM的优势在于: 可以捕获蛋白质的多种构象态(如开放/关闭态) 不需要晶体,避免晶体堆积对构象的限制 3DVA分析可以揭示连续的构象动力学 本研究中确实观察到了2种不同的3D类别和3种运动模式 关键结论与批判性总结 主要贡献: 首次提供GH161家族的原子分辨率结构信息 揭示gate loop动力学是催化调控的核心机制 发现二聚体反对称运动模式,挑战了传统上认为多聚体磷酸化酶亚基功能独立的观点 提出亚基间存在“communication pathway”的假说,为GH-Q clan酶的协同催化机制带来全新视角 局限性: 仅有GH161A的实验结构,GH161B和GH161C依赖AlphaFold2预测 3DVA无法直接提供时间信息:运动方向和速率仍需结合生化动力学实验或MD模拟验证 协同性假说缺乏直接动力学证据:需要通过Hill系数、单分子FRET或双突变循环分析来量化亚基间的相互作用强度 缺乏与真实生理底物(长链β-葡聚糖)的复合物结构 Communication pathway的分子细节尚不清楚:Supporting Figure 13展示的路径仍是推测性的 未来方向: 验证协同性假说:通过稳态动力学(Hill系数)、预稳态动力学(突发相)、单分子FRET实验量化亚基间的功能耦合 鉴定communication pathway关键残基:结合MD模拟和双突变循环分析(double-mutant cycle analysis) 设计解耦突变体:破坏二聚化界面或communication pathway,测试单体酶的催化效率 设计具有更高聚合活性的GH161突变体用于工业生产 解析GH161B和GH161C的实验结构,验证AlphaFold2预测 研究gate loop突变对催化动力学的定量影响 探索GH161在肠道微生物组中的生态功能 更广泛的影响: 本研究展示了cryo-EM在捕获酶催化动力学快照方面的独特优势。结合3DVA分析,研究者无需晶体化即可揭示蛋白质在溶液中的构象异质性。这为研究其他动态酶系统(如变构酶、马达蛋白)提供了方法学启示。 GH161A的反对称催化模式也提醒我们:多聚体酶的亚基可能并非简单的“功能拷贝”,而是通过协同作用实现更高的催化效率。正如作者引用的Chen等人的综述所言,二聚体酶的动力学远比我们过去认为的要复杂和精妙
Specific Sytems
· 2025-11-25
EnzyControl:酶设计方法的技术细节与算法深解
附录:EnzyControl:酶设计方法的技术细节与算法深解 核心方法:条件化酶骨架生成框架 总体数据流概览 EnzyControl的计算流程可以概括为三个阶段: \[\text{输入初始化} \to \text{6层IPA迭代(每层注入底物信息)} \to \text{采样得到骨架}\] 每一层的内部流程: \[h_{k-1}, z_{k-1}, T_{k-1} \xrightarrow{\text{IPA}} h_k \xrightarrow{\text{EnzyAdapter}} c_k^{\text{new}} \xrightarrow{\text{EdgeUpdate}} z_k \xrightarrow{\text{BackboneUpdate}} T_k\] 下面详细展开每个阶段。 graph TB subgraph Input["输入与表征"] direction TB R1["蛋白表征: 3D k-NN图<br/>节点=残基 边=相邻 帧=SE(3)"] A2["底物分子经过Uni-Mol编码<br/>冻结参数"] A3["投影器<br/>2层Linear"] B["功能位点 M<br/>MSA注释的催化残基"] A2 --> A3 end subgraph Init["初始化 k=0"] direction TB D["h₀: 节点特征<br/>残基索引+位置编码"] E["z₀: 边特征<br/>相对序列距离+时间步"] F["T₀: 刚体帧<br/>SO(3)旋转+R³平移"] G["S₀: 底物嵌入<br/>投影器输出"] end subgraph Iter["迭代处理 k=1→6"] direction LR H1["IPA处理<br/>几何特征h_k"] H2["EnzyAdapter<br/>交叉注意底物"] H3["特征融合<br/>h_k^new"] H4["EdgeUpdate<br/>边特征z_k"] H5["预测增量<br/>ΔR Δr"] H6["帧累积<br/>T_k"] HT["Transformer<br/>全局依赖"] H1 --> H2 --> H3 --> H4 --> H5 --> H6 H3 -.-> HT H6 -.->|"k→k+1"| H1 end subgraph Output["最终输出"] direction TB Out["采样20条骨架<br/>T₆ 3D坐标+方向"] end subgraph Eval["评估流水线"] direction LR E1["ProteinMPNN<br/>逆折叠生序列"] E2["ESMFold<br/>序列→结构"] E3["多指标评估<br/>scTM scRMSD等"] E1 --> E2 --> E3 end Input --> Init --> Iter --> Output --> Eval style R1 fill:#e0f2f1 style A2 fill:#e0f2f1 style A3 fill:#e0f2f1 style B fill:#f3e5f5 style D fill:#fff9c4 style E fill:#fff9c4 style F fill:#fff9c4 style G fill:#fff9c4 style H1 fill:#f3e5f5 style H2 fill:#f3e5f5 style H3 fill:#ffe0b2 style H4 fill:#e8f5e9 style H5 fill:#e8f5e9 style H6 fill:#e8f5e9 style HT fill:#fff3e0 style Out fill:#c8e6c9 style E1 fill:#b3e5fc style E2 fill:#b3e5fc style E3 fill:#ffccbc 第一部分:输入与初始化(What flows in) 1.1 蛋白的三维表征:k-NN图与刚体帧 蛋白质在模型中的表征方式决定了生成的效率和质量。EnzyControl 采用3D k-NN图表示: 节点表示:每个氨基酸残基是一个节点,携带残基索引、位置编码等特征 边表示:空间上相邻的残基之间有边连接,使模型能感知残基的局部几何环境 帧表示:每个残基的3D位置和方向用SE(3)中的刚体帧 $T_n = (r, x)$ 表示,其中 $r \in SO(3)$ 是旋转矩阵,$x \in \mathbb{R}^3$ 是位置向量 这种表示方式是与序列无关的纯结构表示:输入只需拓扑信息(哪些残基相邻),不需要氨基酸序列;生成输出也是骨架的3D坐标和方向,序列由ProteinMPNN后续设计。 1.2 底物的化学表征:从分子图到特征向量 底物通过其分子图(不是3D构象)表示,原因是底物的3D位置通常未知。 编码过程: 输入分子图 $\to$ Uni-Mol预训练编码器(在209百万分子构象上预训练) $\to$ 分子特征向量 为防止11,100对数据上过拟合:冻结Uni-Mol所有参数(保留预训练知识) 仅训练轻量级投影器(2层线性 + LayerNorm)$\to$ 底物嵌入 $S_0 \in \mathbb{R}^{D_s}$ 将底物特征从分子表示空间映射到蛋白特征空间,既保留预训练泛化能力,又适配任务。 1.3 系统初始化:第0步的完整状态 在迭代开始前,系统初始化以下向量: 节点特征向量 $h_0 \in \mathbb{R}^{N \times D_h}$: $h_k$ 不是单个残基的特征,而是一个矩阵 $h_k \in \mathbb{R}^{N \times D_h}$,包含第k次迭代后所有 $N$ 个残基的特征向量。每个残基有一个维度为 $D_h$ 的向量,记录该残基在第k次迭代后的结构和化学信息。 初始化信息:残基索引 + 位置编码 边特征向量 $z_0 \in \mathbb{R}^{N \times N \times D_z}$: 每条边(残基对)是一个维度为 $D_z$ 的特征向量 初始化信息的三个成分: 相对序列距离:两个残基在氨基酸序列上的距离($ i-j $)。例如,相邻残基距离为1,间隔一个残基距离为2。这告诉模型哪些残基在序列上接近 时间步:当前生成过程中的时间信息(0→1,从噪声到真实结构)。用正弦和学习的位置编码表示,让模型知道”现在在生成过程的哪个阶段” 自条件信息:模型根据自己在前一步对Cα原子距离的预测,将这个预测的距离矩阵(离散化为22个bin)作为额外信息反馈。这种”自我监督”机制让模型能纠正自己的错误 刚体帧 $T_0 = (r_0, x_0) \in SE(3)$: $r_0 \in SO(3)$:初始旋转(从PDB骨架原子的方向) $x_0 \in \mathbb{R}^3$:初始平移(残基的Cα原子坐标) 底物嵌入 $S_0 \in \mathbb{R}^{D_s}$(每层固定不变重复使用) 第二部分:单层处理流程(How data flows) “层”的含义澄清:这里的”第k层”(k=1,2,…,6)指的是迭代循环的第k次迭代轮次,而非蛋白序列上残基的物理位置。在每一次迭代中,模型都会对整个蛋白骨架的所有残基更新特征和帧信息。 每一层接收上一层的输出,并按以下顺序处理: 步骤1:IPA处理空间几何关系 \[h_k = \text{IPA}(h_{k-1}, T_{k-1})\] 输入:上一层的节点特征 $h_{k-1}$ 和刚体帧 $T_{k-1}$ 操作: IPA(Invariant Point Attention)在”不变点”上计算注意力 这些不变点与坐标系的旋转和平移无关(SE(3)等变) 从多个空间角度分析残基间的相对位置和方向,融合这些信息 输出:$h_k \in \mathbb{R}^{N \times D_h}$(等变几何特征),是纯粹基于蛋白空间几何的特征,捕捉残基彼此间的相对关系,但完全不包含底物信息。 补充:Transformer层穿插在IPA块之间:IPA主要处理空间上相邻残基的局部关系(基于3D k-NN图),而在IPA块之间穿插2层Transformer(每层4个注意力头)来捕捉序列上远距离残基的全局依赖。这样既保证了SE(3)等变性,又能感知远程序列模式。 步骤2:EnzyAdapter通过交叉注意力注入底物信息 \[c_k = \text{Attn}(Q, K, V) = \text{Softmax}\left(\frac{Q K^\top}{\sqrt{d_k}}\right) V\] 其中: $Q = h_k W_q$:查询来自第k层的残基特征。$Q$ 的含义是”蛋白现在长什么样,应该怎么调整?” $K = S_0 W_k$, $V = S_0 W_v$:键值来自底物嵌入 $S_0$(固定,与k无关)。$S_0$ 的含义是”底物分子的信息是什么?” $W_q, W_k, W_v$ 是学到的权重矩阵,用于将 $h_k$ 和 $S_0$ 投影到注意力的查询-键-值空间 输出:$c_k \in \mathbb{R}^{N \times D_h}$(底物-指导的特征) 为什么用交叉注意力: 注意力机制让模型学到位置相关的调制规则 同一个位点在不同底物下应该做不同的结构调整 比简单拼接更精细,避免底物信息的浪费 步骤3:特征融合 \[h_k^{\text{new}} = \text{Linear}(\text{Concat}(\text{Linear}(c_k), h_k))\] 操作: 对 $c_k$ 做一个Linear变换 与 $h_k$ 拼接(concatenate) 再过一个Linear层进行融合 含义:将底物感知信息 $c_k$ 与几何特征 $h_k$ 结合,产生同时考虑蛋白几何和底物约束的融合特征。 等变性保证(关键): 融合发生在特征空间而非坐标空间 Linear运算在特征维度上,不涉及坐标变换 因此不会破坏SE(3)等变性 步骤4:边特征更新 \[z_k = \text{EdgeUpdate}(h_k^{\text{new}})\] 操作:标准消息传递,基于融合后的节点特征 $h_k^{\text{new}}$ 更新边特征。 步骤5:BackboneUpdate预测刚体变换增量 从融合特征 $h_k^{\text{new}}$ 预测: \[\Delta \mathbf{r}^{(k)} \in \mathbb{R}^3, \quad \Delta \mathbf{R}^{(k)} \in SO(3)\] 平移增量 $\Delta \mathbf{r}^{(k)}$:残基Cα应该移动到哪里 旋转增量 $\Delta \mathbf{R}^{(k)}$:残基帧应该如何旋转 这些增量通过BackboneUpdate模块中的线性层从 $h_k^{\text{new}}$ 预测得出。 步骤6:帧累积更新(SE(3)群乘法) \[T_k = T_{k-1} \cdot \exp\left(\begin{bmatrix} [\Delta \mathbf{R}^{(k)}]_\times & \Delta \mathbf{r}^{(k)} \\ 0 & 0 \end{bmatrix}\right)\] 操作: 将增量表示为SE(3)李代数元素 通过李群指数映射转换为SE(3)群元素 左乘到当前帧 $T_{k-1}$ 上,得到更新的帧 $T_k$ 等变性保证:SE(3)群的乘法自动保持群的闭包性质,即增量的累积不会破坏等变性。 第k层的输出 \[h_k, z_k, T_k \quad \text{(传给第k+1层)}\] 第3部分:采样与最终输出 3.1 从$T_6$到骨架的采样过程 完成6层迭代后,模型得到了最终的刚体帧 $T_6 = (r_6, x_6) \in SE(3)$。但这还不是最终的蛋白质骨架,而是需要通过采样过程(Sampling)来生成实际的3D坐标。 单层处理与向量场的关系:Flow matching框架的核心是学习一个条件向量场 $\hat{v}(S_t, t M, G)$,其中: $S_t = (T_t, h_t, z_t)$ 是结构在时间 $t$ 的完整状态(刚体帧、节点特征、边特征) $M$ 是功能位点(MSA注释的催化残基) $G$ 是底物(化学图表示) 这个向量场描述结构状态应如何演化。单层处理(IPA → EnzyAdapter → 融合 → EdgeUpdate → BackboneUpdate)的输出 $T_k, h_k, z_k$ 用来计算向量场的平移和旋转分量 ${v_x, v_r}$——这些是帧的时间导数的近似。整个单层计算过程隐含地定义了条件向量场:通过IPA提取几何,通过EnzyAdapter注入底物约束,通过BackboneUpdate预测帧增量。 采样的核心思想:流匹配框架在训练阶段学习了一个条件向量场 $\hat{v}(x_t, t M, G)$,在推理时无需再训练任何参数。采样是一个纯前向推理的逆向去噪过程,利用已训练的向量场从纯噪声(高斯随机)逐步演化到真实结构。具体步骤: 初始化噪声:从高斯分布采样初始的平移向量 $x_0$ 和初始的旋转矩阵 $r_0$(IGSO(3)是SO(3)群上的不变高斯分布,保证采样的旋转矩阵始终有效) 反向积分(纯推理,无参数更新):使用ODE求解器(通常是Euler方法)从t=0积分到t=1 在每一步 $t_i$ 到 $t_{i+1}$,调用已训练的模型预测条件向量场 $\hat{v}(x_t, t M, G)$ 使用Euler步更新:$x_{t+1} = x_t + \Delta t \cdot \hat{v}(x_t, t M, G)$(仅执行前向传播,不计算梯度) 功能位点锁定:在每个去噪步骤,将功能位点(motif)的坐标固定为真实值,只生成scaffold部分。这确保催化位点不会偏离目标 输出骨架:完成积分后,得到 $x_1$(平移)和 $r_1$(旋转),组合成最终的刚体帧序列 $T_6^{\text{final}}$ 3.2 多骨架采样 模型在推理时不是只输出一条骨架,而是多次采样: 采样策略:从同一个底物和功能位点出发,进行多轮独立的去噪过程,每次从不同的随机初始化开始 采样数量:原文中对每个底物生成20条骨架 目的: 多样性:获得不同的结构变异体,增加成功的概率 筛选空间:后续可通过对接、功能预测等筛选出最优的骨架 3.3 完整的推理管线 生成最终可用的蛋白质结构需要经过后处理管线(详见评估流水线): \[\text{采样得到骨架} \xrightarrow{\text{ProteinMPNN}} \text{设计序列} \xrightarrow{\text{ESMFold}} \text{全原子结构}\] 第四部分:训练与评估 4.1 训练目标与损失函数 EnzyControl采用流匹配(Flow Matching)框架进行训练。流匹配的核心思想是学习一个向量场,使数据从噪声分布演化到真实分布。在SE(3)等变骨架生成的约束下,训练目标最小化真实向量场与预测向量场之间的平方距离: \[\mathcal{L} = \mathbb{E}\left[\|v_R(x_t, t|x_1) - \hat{v}_R(S_t, t|M, G)\|_R^2 + \|v_{SO(3)}(r_t, t|r_1) - \hat{v}_{SO(3)}(S_t, t|M, G)\|_{SO(3)}^2\right]\] 其中: 第一项 $|v_R(x_t, t x_1) - \hat{v}_R(S_t, t M, G)|_R^2$:平移向量场的损失 $v_R(x_t, t x_1)$ 是真实的平移向量场(从噪声x₀演化到真实结构x₁) $\hat{v}_R(S_t, t M, G)$ 是模型预测的条件化平移向量场(条件为功能位点M和底物G) 这项确保生成的残基位置正确 第二项 $|v_{SO(3)}(r_t, t r_1) - \hat{v}_{SO(3)}(S_t, t M, G)|_{SO(3)}^2$:旋转向量场的损失 $v_{SO(3)}(r_t, t r_1)$ 是真实的旋转向量场(从噪声旋转r₀演化到真实旋转r₁) $\hat{v}_{SO(3)}(S_t, t M, G)$ 是模型预测的条件化旋转向量场 这项确保生成的残基方向正确 两项加起来形成SE(3)等变损失,同时约束平移和旋转,保证生成的骨架既符合几何约束又满足功能要求。 4.2 两阶段训练范式 第一阶段:对齐(学习底物-蛋白映射) 冻结:FrameFlow主干(FrameFlow是Frank Noe团队之前发表的SE(3)等变骨架生成方法,其主干包含IPA、Transformer、BackboneUpdate等模块,已在大规模数据上充分预训练) 训练:仅Uni-Mol投影器 + EnzyAdapter(<100K参数) 目标:让投影器和EnzyAdapter学会如何正确编码底物,并与FrameFlow的蛋白生成对齐 为什么:主干已预训练好,先稳定地建立底物-蛋白的映射关系 第二阶段:微调(端到端优化) 冻结:无 训练方法:LoRA(低秩自适应) 在关键线性层插入低秩分解 $\Delta W = AB^\top$ 秩 $r=16$,缩放因子 $\alpha=32$ 参数量约8K/层,总计显著低于全参数微调 优势: 显存占用低(仅全参数的约5%) 训练时间节省约70% 低秩约束自动限制学习容量,防止过拟合 图4:两阶段训练策略的效果。展示了第一阶段对齐和第二阶段LoRA微调对模型性能的累积贡献,说明分步策略相比端到端直接微调更加稳定高效。 4.3 EnzyBind数据集与评估 数据集构建 EnzyBind:11,100个实验验证的酶-底物复合物,来自PDBbind 流程: 源数据筛选:从PDBbind提取酶-底物复合物,排除RDKit无法处理的 PDB清洗:标准化预处理,处理多链和对称单位 功能位点注释:通过MSA自动识别进化保守的催化残基 EC分类标注:覆盖6大催化类型,从EC一级至三级 特点:所有结构来自实验解析(vs合成数据),口袋几何和底物构象可靠 数据分割策略 传统的酶数据集分割多采用时间顺序(按发表日期划分训练集和测试集),但这种方法不符合条件化生成的需求。EnzyControl采用功能性有意义的分割方法: 基于序列相似性的聚类:使用 CD-HIT 工具对所有酶序列进行聚类,确保训练集和测试集中的酶序列无重叠 随机分配集群:将聚类后的集群随机分配到训练集或测试集 采样配对:从每个集群中采样对应的酶-底物配对 这样做的优势是防止数据泄露——相同或极度相似的酶序列不会同时出现在训练和测试集中,保证评估的真实性和严格性。 统一评估流水线 为了公平比较所有基线模型,EnzyControl建立了统一的评估流水线: 生成骨架 → 模型输出候选骨架 逆折叠 → ProteinMPNN 将骨架转换为氨基酸序列 结构预测 → ESMFold 从序列预测完整的三维结构 多指标评分 → 在预测的结构上计算所有指标 所有报告的指标都基于 ESMFold 预测的结构,确保不同方法的评估结果相互可比。 评估指标详解 结构质量指标(衡量生成的骨架可信度): Self Consistency (scTM):生成骨架与 ESMFold 预测结构的 TM-score,值越高越好。衡量两个结构的全局相似度 设计性 (Designability, scRMSD<2Å):满足 scRMSD<2Å 的生成骨架比例。scRMSD 是 Cα 原子间的均方根偏差,<2Å 表示结构与已知蛋白相似,可信度高 功能指标(衡量生成酶的催化功能): EC 匹配率:生成的酶序列通过 CLEAN 模型预测的 EC 号与目标 EC 号相同的比例。CLEAN 是经过 90% 以上精度验证的序列模型 预测的$k_{cat}$:使用 UniKP 模型根据序列和底物 SMILES 预测的催化速率常数。$k_{cat}$ 越大表示催化效率越高 底物结合指标(衡量酶与底物的相互作用): 结合亲和力:使用 GNINA 对接工具计算生成酶对底物的对接评分(越低越好,通常 <-6 kcal/mol 表示强结合) ESP 分数:EnzyGen 设计的统计学检验分数,用于评估生成结构的“设计合理性”。分数越高越好,表示该结构组合(骨架+序列)在自然界中出现的统计学概率越高,即设计越“自然”、越可信 其他指标: 氨基酸恢复率 (AAR):生成序列与原生序列的一致性 多样性:生成骨架间的结构差异程度(Foldseek 聚类) 新颖性:生成骨架与原生蛋白的结构差异程度 评估流水线 生成骨架后的完整过程: \[\text{骨架} \xrightarrow{\text{ProteinMPNN}} \text{序列} \xrightarrow{\text{ESMFold}} \text{结构预测} \xrightarrow{\text{多指标}} \text{评分}\] 评估指标: 结构指标:scTM(TM-score)、scRMSD(<2Å定义设计性) 功能指标:EC号匹配率(CLEAN模型预测)、$k_{cat}$预测(UniKP) 结合指标:底物结合亲和力(GNINA对接) 综合指标:ESP分数(EnzyGen统计学检验) 总结 EnzyControl的创新在于将条件信息(底物)与等变骨架生成无缝结合: 完整数据流:底物 → S₀ → 每层EnzyAdapter → 融合特征 → 增量预测 → 帧累积 → 最终骨架 数学严谨:特征空间融合保证SE(3)等变性自动维持 逐层约束:底物信息在每一层指导结构演化,而非单次注入 参数高效:两阶段训练+LoRA,以最小成本获得最大效果
Specific Sytems
· 2025-11-05
让酶生成可控:EnzyControl为骨架生成引入功能与底物特异性
让酶生成可控:EnzyControl为骨架生成引入功能与底物特异性 本文信息 标题: 为酶骨架生成引入功能与底物特异性:EnzyControl 方法 作者: Chao Song, Zhiyuan Liu, Han Huang, Liang Wang, Qiong Wang, Jianyu Shi, Hui Yu, Yihang Zhou, Yang Zhang 发表时间: 2025年10月29日(arXiv v1) 单位: Northwestern Polytechnical University(中国); National University of Singapore(新加坡); The Chinese University of Hong Kong(中国香港); Institute of Automation at CAS(中国) 引用格式: Song, C., Liu, Z., Huang, H., Wang, L., Wang, Q., Shi, J., Yu, H., Zhou, Y., & Zhang, Y. (2025). EnzyControl: Adding Functional and Substrate‑Specific Control for Enzyme Backbone Generation. arXiv:2510.25132. 代码与资源: GitHub — https://github.com/Vecteur-libre/EnzyControl 摘要 设计具有底物特异性功能的酶骨架是计算蛋白质工程的关键挑战。现有生成模型在蛋白设计上表现优异,但在结合数据、底物特异控制与从头设计灵活性方面存在局限。为此,本文介绍 EnzyBind 数据集,包含 11,100 个从 PDBbind 精心遴选的实验验证酶‑底物复合物。基于此,提出 EnzyControl 方法,在酶骨架生成中实现功能与底物特异性的联合控制。该方法以 MSA 标注的催化位点及其对应底物为条件,生成酶骨架;通过轻量级可模块化的 EnzyAdapter 集成到预训练的骨架生成模型中,使其具备底物感知能力。两阶段训练范式进一步优化了模型生成精确、功能性酶结构的能力。实验表明,EnzyControl 在 EnzyBind 与 EnzyBench 基准上均取得最佳性能,相比基线模型在可设计性与催化效率上分别提升 13%。代码已开源于 https://github.com/Vecteur-libre/EnzyControl 。 核心结论 在 SE(3) 等变骨架生成中注入底物条件,显著提升结构可设计性与功能可控性 EnzyAdapter 将底物语义与功能位点跨注意力耦合,带来更高的 EC 匹配率与更优的预测 $k_{cat}$ 两阶段训练与 LoRA 微调有效稳定训练并降低成本 在零样本场景(新底物/新 EC 类别)中仍保持较强的亲和力与效率指标 背景 蛋白设计的可控生成正从一般结构可行性走向功能可控。特别是在酶设计中,目标不只是生成稳定的骨架,还要对功能分类(EC 号)与底物特异性作出定向约束,以服务合成生物学与绿色催化。 现有扩散/流匹配式骨架生成模型在形状正确方面已取得进展,但面临三类挑战。其一,功能语义难以注入:结构生成主干多以几何信号为核心,如何有效嵌入底物与功能位点的信息尚不清晰。其二,训练不稳定与成本高:在大规模条件生成中,端到端训练容易漂移,需要参数高效的适配策略。其三,评价不统一:结构指标(scTM、scRMSD)与功能指标(EC 匹配、$k_{cat}$、对接亲和力)往往分散,缺乏覆盖多 EC 家族的系统基准。 在这个背景下,Frank Noe 团队发表的 FrameFlow 工作为蛋白骨架生成树立了新的标杆,通过 SE(3) 等变流匹配框架实现了高质量的结构采样。EnzyControl 的创新之处在于,它在 FrameFlow 等变骨架生成主干的基础上,首次系统地引入底物conditioning与功能位点约束,使得结构生成不再是纯几何问题,而是与分子功能紧密耦合的生物设计问题。 关键科学问题 如何将底物语义与功能位点表征稳定地注入到三维骨架生成主干中,并保持 SE(3) 等变性质不被破坏。 如何在训练成本可控的前提下,完成端到端的条件适配,并提升零样本泛化能力。 如何建立覆盖多 EC 家族、既关注结构一致性又关注功能性的统一评测体系。 创新点 EnzyAdapter:跨注意力条件层,将底物图嵌入与功能位点特征在每层耦合,显式影响平移与旋转向量场 两阶段训练范式:先对齐底物/功能条件,再以 LoRA 低秩微调端到端适配 统一评估流水线:骨架→ProteinMPNN 逆折叠→ESMFold 结构预测→CLEAN/UniKP/GNINA/ESP 指标,覆盖结构与功能 数据与基准:构建 EnzyBind 与独立基准 EnzyBench,跨 EC 家族报告 EC 匹配率、$k_{cat}$ 与亲和力 研究内容 核心方法:条件化酶骨架生成框架 详见附录(今天的下一篇推送) 图3:EnzyControl 的条件生成框架。在主干各层注入 EnzyAdapter 后,自我一致性与可设计性(scRMSD<2Å)显著提升,说明底物语义有效约束了骨架更新的方向。 数据集与评估设置 详见附录 实验结果与分析 核心评估指标解析 表1 EnzyBind 上结构与功能指标的总体比较(节选重排)。 模型 Self Consistency 可设计性(scRMSD<2Å) EC匹配率 平均 $k_{cat}$ 结合亲和力(越低越好) ESP分数 RFDiffusion 0.6932 0.5728 0.0812 2.3412 −6.7446 0.6657 Chroma 0.6546 0.5163 0.4579 2.5325 −6.7258 0.7116 Proteina 0.7213 0.6328 0.4583 2.4592 −6.3522 0.6709 EnzyControl 0.8848 0.7160 0.5041 2.9168 −6.9303 0.7334 解读:与不含条件注入的主流骨架生成相比,EnzyControl 在结构可设计性与功能匹配上同步提升,且对接亲和力更优。底物‑到‑残基的跨注意力是关键贡献。 图5/图6/图7:关键分布与匹配率对比。 图5:EnzyAdapter 的存在使高 $k_{cat}$ 区间占比上升(左侧蓝色分布右移) 图6:整体亲和力分布左移(更优),代表更强的结合能力 图7:在 EC 一级至四级层级,EnzyControl 的匹配率稳定领先其他基线,证明模型学到了跨层级的一致功能语义 表5 组件消融(去除 EnzyAdapter 或去除 MSA 保守位点,EnzyBind)。 EnzyAdapter MSA Self Consistency 可设计性 EC匹配率 平均 $k_{cat}$ 结合亲和力 ESP ✓ ✓ 0.8848 0.7160 0.5041 2.9168 −6.9303 0.7334 ✗ ✓ 0.8748 0.7067 0.4761 2.5833 −6.5523 0.7205 ✓ ✗ 0.8719 0.6863 0.4764 2.4615 −6.4361 0.7183 解读:去除 Adapter 或去除保守位点都会显著降低 EC 匹配率与 $k_{cat}$ 均值。功能位点的保真度与条件注入的强度共同决定功能性指标。 表3:跨EC家族的结合亲和力对比 浅解读:EnzyControl 在 17个EC家族上的亲和力均优于基线模型,平均达 −6.93 kcal/mol。表4表明,MSA保守位点的扰动会显著拉低所有性能指标,证实了功能位点保真度至关重要。 图8:零样本泛化(新底物/新 EC)。EnzyControl 在未见过的底物与 EC 二级类别上,结合亲和力仍保持较低,显示较强的迁移能力。 表5(续):EnzyBench 基准上的质量指标 模型 结合亲和力(Avg) pLDDT(Avg) EnzyGen −9.61 87.21 RFDiffusion+IF −8.75 83.22 EnzyControl −9.76 88.28 表6:EnzyBench 中跨30个EC家族的结合亲和力细节 浅解读:EnzyControl 在30个EC家族上亲和力均优于或持平基线,平均达 −9.76 kcal/mol。这验证了底物条件化在不同催化机制间的广适性。 图10:个案研究(PDB:2cv3)。在该底物上,EnzyControl 生成的骨架对接姿态更贴合,预测 $k_{cat}$ 更高,说明条件注入促成了更具化学合理性的口袋几何。具体而言: 结合亲和力改善:EnzyControl 生成的骨架达到 −9.78 kcal/mol,相比 RFDiffusion 的 −6.92 kcal/mol 提升 51% 催化效率飙升:预测的 $k_{cat}$ 达 9.72 s⁻¹,比 RFDiffusion 高近 8 倍 相互作用网络:对接模拟显示 EnzyControl 生成的酶与底物形成更多相互作用键,表明口袋几何更优 残基效率(Residue Efficiency):在实际蛋白质工程中,设计的酶应在保持功能活性的前提下,尽可能缩短序列长度(更短的序列促进基因表达,降低合成成本)。研究表明,EnzyControl 相比 RFDiffusion 基线在不同 $k_{cat}$ 区间内都能生成约 30% 更短的序列,这对合成生物学应用具有重要经济价值。 多样性与新颖性分析 虽然 EnzyControl 追求可设计性,但其多样性指标(通过 Foldseek 聚类计算)与部分超大模型相比略低。这反映了一个普遍的权衡:追求可设计性(结构与功能的稳定性)往往需要牺牲某些采样多样性。这是未来工作需要平衡的方向。 结果逻辑图:从条件表征到功能验证 graph TB subgraph II["结构质量验证"] direction TB D["<b>Self Consistency</b><br/>0.8848 (vs 0.7213)"] E["<b>可设计性</b>:scRMSD<2Å<br/>71.60% (vs 63.28%)"] F["核心发现:<b>底物conditioning</b><br/>显著提升结构可靠性"] end subgraph III["功能性检验"] direction TB G["<b>EC匹配率</b><br/>50.41%<br/>(vs 45.83%)"] H["预测<b>kcat</b><br/>2.9168 s⁻¹<br/>(vs 2.4592)"] I["<b>结合亲和力</b><br/>-6.9303 kcal/mol<br/>(vs -6.3522)"] J["核心发现:<b>EnzyAdapter</b><br/>精确映射底物到催化功能"] end subgraph IV["泛化能力验证"] direction TB K["<b>零样本新底物</b><br/>亲和力可维持"] L["<b>零样本新EC类别</b><br/>匹配率有效"] M["核心发现:模型学到<br/><b>通用功能映射</b>规律"] end subgraph V["设计可行性验证"] direction TB N["个案<b>2cv3</b>:<br/><b>kcat提升8倍</b>"] O["<b>残基效率</b><br/>序列缩短30%"] P["对接评分显著改善<br/><b>-9.78 vs -6.92</b><br/>改善51%"] Q["核心发现:<b>结构生成</b><br/>与<b>实际催化</b>耦合有效"] end II --> III --> IV --> V style D fill:#c8e6c9 style E fill:#c8e6c9 style F fill:#fff59d style G fill:#ffccbc style H fill:#ffccbc style I fill:#ffccbc style J fill:#fff59d style K fill:#b3e5fc style L fill:#b3e5fc style M fill:#fff59d style N fill:#f8bbd0 style O fill:#f8bbd0 style P fill:#f8bbd0 style Q fill:#fff59d 讨论 方法论创新的深层意义 EnzyControl 的突破在于在保持 SE(3) 等变性的严格约束下实现功能可控,解决了结构生成与功能约束长期以来的矛盾。具体而言: 功能可控与结构可行的统一:底物条件化通过 EnzyAdapter 的跨注意力机制,实现了底物信息与骨架更新的紧耦合。这避免了以往模型在追求多样性时功能指标下降的问题,而是在保证可设计性的同时,精准映射到相应的催化功能。 参数高效的适配范式:两阶段+LoRA 训练将适配成本压缩至可操作范围。第一阶段的底物-功能对齐避免了主干参数的快速漂移,第二阶段的低秩分解(<5% 参数量)进一步降低了资源消耗,使得该方法可行于资源受限的研究组。 系统化的评估体系:EnzyBind/EnzyBench 的联合设计,跨 EC 家族构建统一基准,避免了以往单类酶评估的局限。评估模型(CLEAN、UniKP、GNINA)都已在真实酶或相关任务上验证,为计算指标奠定了生物学基础。 SE(3) 等变性的实现机制 EnzyControl 能够在保持等变性的同时注入底物条件,关键在于跨注意力直接作用于向量场,而非破坏刚体变换的自然性。具体而言: EnzyAdapter 的输出与 IPA 的特征表征在特征空间中融合,不涉及坐标系变换 BackboneUpdate 基于融合后的特征预测 $\Delta \mathbf{r}$ 与 $\Delta \mathbf{R}$,这些增量本身满足 SE(3) 群的闭包性质 因此,即使底物信息已注入,生成的骨架对刚体变换仍然协变——旋转整个复合物,生成结果也相应旋转 零样本泛化的源头 EnzyControl 在新底物与新 EC 类别上仍能保持较好性能(结合亲和力 −7.01 kcal/mol,仅略低于已见任务的 −6.93 kcal/mol),原因包括: Uni-Mol 的丰富知识库:在 209M 分子构象上预训练,即使遇到新的底物结构,仍能映射到接近的特征空间 Adapter 学到的是通用映射:不是记忆单个“底物“,而是学习”大分子特征→残基更新方向”的规律 MSA 保守位点的约束:功能位点的进化守恒性提供了跨家族的鲁棒性 与现实设计管线的衔接 虽然 EnzyControl 生成的是骨架,但通过以下流程可集成到实际工程: 生成 20 个骨架 → 逆折叠得到 100 个候选序列 → 结构预测 对接引导优化:基于 GNINA 对接分数反复迭代 → 发现结合亲和力 −8.38 kcal/mol 的改进体(相比初始 −6.92 kcal/mol 提升 21%) 湿实验验证与合成 性质优化迭代 这一“生成→筛选→再生成”的闭环是未来的关键方向。 关键结论与批判性总结 潜在影响 证明酶骨架生成可以被功能与底物特异性联合控制 提供可复用的条件注入与低秩适配范式,便于迁移至其他“蛋白”家族 局限性 未建模底物结合构象:当前方法专注于生成酶骨架,但并未显式建模骨架在与底物结合时所采纳的特定构象变化(如 AtomicFlow 所强调的),这可能导致生成的骨架在实际催化中的构象灵活性不足 多链装配的间接处理:现有框架限制在单链酶骨架,简化了序列-结构映射但限制了对多聚体或复杂变构系统的直接应用,目前采用的是生成→融合二聚化的事后策略而非集成设计 多样性与可设计性的权衡:虽然 EnzyControl 生成多样的骨架样本,但在保持高可设计性(scRMSD<2Å)的前提下,多样性与新颖性指标略低于在更大、更异质训练集上训练的通用模型 缺乏自身的湿实验验证:本文所有评估均基于计算模型预测(CLEAN、UniKP、GNINA),虽然这些模型本身已在其他酶系统上验证过,但本工作并未对 EnzyControl 生成的候选酶进行独立的实验室合成和活性测定,因此实际设计效果仍需在真实湿实验中进一步确认 未来方向 将条件扩展至辅酶/金属离子/环境因子,形成多条件联合控制 与对接或分子力场形成闭环优化,实现“生成→筛选→再生成”的联动 在湿实验中验证关键家族与代表“底物“,形成”设计‑验证”的正反馈 小编锐评: 反正是学一下模型,Flow Matching感觉细节还有很多抽象问题。 怎么说呢,都考虑配体了,干嘛不设计一下序列呢,显得没啥用啊。还跟proteinMPNN绑定了,或者其他能考虑配体的序列设计联用。$k_{cat}$ 与对接亲和力本应能说明这个事可能有用的,但结果看来没明显变好。 感觉酶类的评估指标都一般啊,都是计算的指标,用别的模型给它打分,甚至还有对接分数,你最起码用AlphaFold3预测复合物结构吧,或者boltz-2预测,当然可能做的比较早? 也没做湿实验,酶没湿实验都难以验证。还是觉得生成类的文章做评估都是玄学,又要像已知的都行,有时候还要新颖才能效果好,就是因为只依赖于有限的数据而无基于物理的验证,有模拟总比没有强。我也不太懂AI。越来越不信任预印刊,我觉得计算机领域带着计算生物学化学老是认可预印是不对的,很多不太靠谱的,哪怕是大佬组的东西。 这篇才是我理想中酶设计大概的套路:https://mp.weixin.qq.com/s/1opv945uG_R-2GpkI59s5w
Specific Sytems
· 2025-11-05
<
>
Touch background to close